2014-02-16 43 views
2

我正在使用支持向量机对短语进行分类。在使用SVM之前,我明白我应该对短语向量进行某种标准化。一种流行的方法是TF-IDF。使用SVM时,TF-IDF是否必要?

具有最高TF-IDF分数的术语通常是最能表征文档主题的术语。

但是这不正是SVM所做的事情吗?为最能表征文档的术语赋予最高权重?预先:-)

回答

2

一个术语(如通过SVM分类分配)的重

由于可以或可以不直接正比于该术语的特定类的关联性。这取决于分类器的核心以及使用的正则化。 SVM确实不是为最能表征单个文档的术语分配权重。

术语频率(tf)和逆文档频率(idf)用于编码文档向量中的术语值。这与SVM分类器无关。

相关问题