我正在进行潜在语义分析,我试图从2个文档中获得相似度。我在Python上运行我的潜在语义分析代码,当我运行它时,我得到: Here are the singular values
[ 0.7376057 0.4596623 0.25422212]
Here are the first 3 columns of the U matrix
[[ 0.98465137 -0.172792 -0.0
我使用word2vec来表示一个小短语(3到4个字)作为一个独特的矢量,要么通过添加每个单词嵌入或通过计算字嵌入的平均值。 从我做过的实验中总会得到相同的余弦相似度。我怀疑它与word2vec生成的单词向量在训练之后是否与单位长度(欧几里得范数)相同?或者我在代码中有一个BUG,或者我错过了一些东西。 下面是代码: import numpy as np
from nltk import Punk