2012-07-27 21 views
3

我最近在玩二元情感分析中使用的众所周知的电影评论数据集。它由1,000个正面评论和1,000个负面评论组成。在研究具有单字特征的各种特征编码时,我注意到所有以前的研究出版物都使用它们的欧几里德标准对矢量进行归一化,以便将它们缩放到单位长度。为什么要对SVM特征向量执行余弦归一化?

但是,在使用Liblinear的实验中,我发现这种长度归一化显着降低了分类精度。我研究了向量,我认为这是原因:向量空间的维度是,例如,10,000。结果,矢量的欧几里得范数与个体投影相比非常高。因此,在归一化之后,所有矢量在每个轴上都得到非常小的数字(即,轴上的投影)。

这让我感到惊讶,因为本领域的所有出版物声称它们执行余弦归一化,而我发现不归一化可以产生更好的分类。

因此,我的问题:如果我们不对SVM特征向量执行余弦规范化,是否有任何特定的缺点? (基本上,我正在寻求一个数学解释这种正常化的需要)。

+3

在低维空间中,标准化具有将维度减1的缺点。但是这种减少在高维度上应该不重要。 – 2012-07-27 08:19:50

回答

1

在仔细阅读了LibSVM的手册后,我意识到为什么标准化与而不是标准化相比产生的准确性要低得多。他们建议将数据缩放到[0,1]或[-1,1]区间。这是我没有做过的事情。扩大规模将解决太多数据点非常接近于零的问题,同时保留长度归一化的优势。