2
我正在使用支持向量机进行文本分类,但基本上我与测试集的特征向量的计算混淆。对于训练特征向量,我对每个训练数据采用TF-IDF向量,并使用TF-IDF值构建特征矩阵[docs x terms]。特征向量:训练对测试集的权重计算
但是如何计算测试集的特征向量?我应该使用训练集中的TF-IDF值来计算它吗?
例如:在针对特定单词“apple”的训练集中,文档频率为5. 对于测试集,我应该使用值“5”作为“apple”吗?或者根据测试集重新计算TF-IDF?或者说,我在计算特征向量时会出错吗?
在此先感谢!
你好。这种方法有没有参考?优选来自文献ty中的文章 – MonsterMMORPG 2016-04-29 00:16:44