3
我有文本数据集,我已经手动将每个记录分类为两个可能的类之一。我在语料库上创建了TFIDF,不使用英语停用词,训练/测试随机森林分类器,评估模型,并将模型应用于更大的文本语料库。到目前为止,所有这一切都很好,但如何更多地了解我的模型,即如何找出哪些单词对模型“重要”?文本分类interpert随机森林模型
我有文本数据集,我已经手动将每个记录分类为两个可能的类之一。我在语料库上创建了TFIDF,不使用英语停用词,训练/测试随机森林分类器,评估模型,并将模型应用于更大的文本语料库。到目前为止,所有这一切都很好,但如何更多地了解我的模型,即如何找出哪些单词对模型“重要”?文本分类interpert随机森林模型
训练有素的射频应该有一个属性feature_importances_
。我认为你必须用oob_score=True
(在构造函数中)来训练模型。要素重要性将告诉您哪些特征(数据矩阵列)有影响力。为了得到这些单词,你可以回到tfidf矢量化工具并获得它的vocabulary_
属性(注意尾部下划线),这是一个从单词到列索引的字典。
有关词汇属性的解释,请参阅此帖:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document
有意义。非常感谢! – user1624577