2014-02-06 45 views
0

我知道Knn有一个问题在处理高维数据时知道“维度的诅咒”,它的理由是它包含计算距离时的所有特征,即欧氏距离,其中非重要特征充当噪声并偏向结果,但是我不明白几件事情距离度量度量对K近邻维数的影响?

1)余弦距离度量如何受这个维度问题的影响,即我们将余弦距离定义为cosDistance = 1- cosSimilarity其中cosSimilarity对于高维数据是有利的,所以余弦距离可能如何受到维度问题的诅咒?

2)我们可以给weka指定任何权重,或者我可以将特征选择应用到KNN本地吗?局部到knn意味着我编写自己的K-NN类,其中在分类i中首先将训练实例转换为较低维度,然后计算测试实例邻居?

回答

2

余弦与欧几里得距离没有根本的区别。

事实上,对于欧几里德长度为1的归一化数据,余弦和欧几里德距离是一样的。换句话说,余弦正在计算L2归一化矢量上的欧氏距离...

因此,余弦不比维数的欧氏距离更强壮。然而,余弦在例如文本数据具有较高的表观维度 - 通常为数千个维度 - 但维度的内在维度必须低得多。另外,它主要用于排名;实际距离值被忽略。