4
http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec火花MLLib的Word2Vec余弦相似度大于1
在火花实施word2vec的,当迭代或数据分区的数目是大于一,由于某种原因,余弦相似度大于1
据我所知,余弦相似度应该总是大约-1 < cos < 1.有人知道为什么吗?
http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec火花MLLib的Word2Vec余弦相似度大于1
在火花实施word2vec的,当迭代或数据分区的数目是大于一,由于某种原因,余弦相似度大于1
据我所知,余弦相似度应该总是大约-1 < cos < 1.有人知道为什么吗?
在word2vec
findSynonyms
方法,它不计算余弦相似度v1・vi/|v1| |vi|
,代替它计算v1・vi/|vi|
,其中v1
是查询字的矢量和vi
是候选字的矢量。 这就是为什么数值有时会超过1的原因。 只是为了找到更接近的单词,没有必要除以|v1|
,因为它是恒定的。