特征向量：训练对测试集的权重计算

我正在使用支持向量机进行文本分类，但基本上我与测试集的特征向量的计算混淆。对于训练特征向量，我对每个训练数据采用TF-IDF向量，并使用TF-IDF值构建特征矩阵[docs x terms]。特征向量：训练对测试集的权重计算

但是如何计算测试集的特征向量？我应该使用训练集中的TF-IDF值来计算它吗？

例如：在针对特定单词“apple”的训练集中，文档频率为5. 对于测试集，我应该使用值“5”作为“apple”吗？或者根据测试集重新计算TF-IDF？或者说，我在计算特征向量时会出错吗？

在此先感谢！

2013-04-20 na9090

您应该使用训练集计算每个术语的IDF（逆文档频率）。然后，您应该对测试集中的文档使用相同的IDF。 TF另一方面取决于你想要分类的具体文件，因此测试和训练集中的不同文件将会有所不同。

2013-04-21 21:37:57

你好。这种方法有没有参考？优选来自文献ty中的文章 – MonsterMMORPG 2016-04-29 00:16:44

回答