文本分类interpert随机森林模型

我有文本数据集，我已经手动将每个记录分类为两个可能的类之一。我在语料库上创建了TFIDF，不使用英语停用词，训练/测试随机森林分类器，评估模型，并将模型应用于更大的文本语料库。到目前为止，所有这一切都很好，但如何更多地了解我的模型，即如何找出哪些单词对模型“重要”？文本分类interpert随机森林模型

来源

2015-12-28 user1624577

训练有素的射频应该有一个属性feature_importances_。我认为你必须用oob_score=True（在构造函数中）来训练模型。要素重要性将告诉您哪些特征（数据矩阵列）有影响力。为了得到这些单词，你可以回到tfidf矢量化工具并获得它的vocabulary_属性（注意尾部下划线），这是一个从单词到列索引的字典。

有关词汇属性的解释，请参阅此帖：sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

来源

2015-12-28 21:58:18 Dthal

有意义。非常感谢！ – user1624577

文本分类interpert随机森林模型

回答

相关问题