2015-12-28 50 views
3

我有文本数据集,我已经手动将每个记录分类为两个可能的类之一。我在语料库上创建了TFIDF,不使用英语停用词,训练/测试随机森林分类器,评估模型,并将模型应用于更大的文本语料库。到目前为止,所有这一切都很好,但如何更多地了解我的模型,即如何找出哪些单词对模型“重要”?文本分类interpert随机森林模型

回答

5

训练有素的射频应该有一个属性feature_importances_。我认为你必须用oob_score=True(在构造函数中)来训练模型。要素重要性将告诉您哪些特征(数据矩阵列)有影响力。为了得到这些单词,你可以回到tfidf矢量化工具并获得它的vocabulary_属性(注意尾部下划线),这是一个从单词到列索引的字典。

有关词汇属性的解释,请参阅此帖:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

+0

有意义。非常感谢! – user1624577