2014-09-10 19 views
1

我正在使用scikit-learn库中的随机森林处理python中的文本分类问题。我想尝试不同的功能选择方法,如信息增益(IG)或双正常分离(BNS),如paper中所述。Python中用于文本分类的特征选择

似乎scikit中可用的特征选择(使用CountVectorizer类)中唯一可用的特征选择方法基于文档频率。其他库中是否还有其他方法?

回答

1

有一个功能选择模块,它具有用于执行单变量选择或递归功能消除的工具:http://scikit-learn.org/dev/modules/feature_selection.html scikit-learn中没有信息gane或BNS。文档频率不是特征选择方法。

+0

是的,它似乎还没有实施。最后我决定自己实施BNS,当我有一些空闲时间时,我会尝试将它添加到scikit库中。其实文档频率是一种特征选择方法,至少在文本分类领域。在这种情况下,您可以选择出现在文档数量最多的功能(单词)。 – markusian 2014-09-11 09:07:28