火花MLLib的Word2Vec余弦相似度大于1

在火花实施word2vec的，当迭代或数据分区的数目是大于一，由于某种原因，余弦相似度大于1

据我所知，余弦相似度应该总是大约-1 < cos < 1.有人知道为什么吗？

2015-10-27 Jason Xie

在word2vecfindSynonyms方法，它不计算余弦相似度v1・vi/|v1| |vi|，代替它计算v1・vi/|vi|，其中v1是查询字的矢量和vi是候选字的矢量。这就是为什么数值有时会超过1的原因。只是为了找到更接近的单词，没有必要除以|v1|，因为它是恒定的。

2015-11-17 18:33:33

回答