我想计算文章之间的余弦相似度。我遇到了一个问题,即我的实现方法需要很长时间来处理我要运行的数据的大小。如何在Python中为余弦相似度运行大型矩阵?
from scipy import spatial
import numpy as np
from numpy import array
import sklearn
from sklearn.metrics.pairwise import cosine_similarity
I = [[3, 45, 7, 2],[2, 54, 13, 15], [2, 54, 1, 13]]
II = [2, 54, 13, 15]
print cosine_similarity(II, I)
以上例为例,计算I和II已经花了1.0s,我的数据的维数在(100K,2K)左右。
是否有其他软件包可用于运行巨大的矩阵?
几个例子在这里http://stackoverflow.com/questions/18424228/cosine-similarity-between-2-number-lists – tinySandy
@minitoto最好的答案就是实施我有。但我认为这并不能解决大规模数据的问题。 – YAL