2017-03-02 30 views
0

我在推荐引擎上工作,我现在面临的一个问题是项目的相似度矩阵非常大。项目到项目的协同过滤,如何管理相似矩阵?

我计算了2万个项目的相似度矩阵,并将它们存储为一个二进制文件,该文件调整为接近1 GB。我认为这太大了。

如果您有很多项目,处理相似性矩阵的最佳方法是什么?

有任何建议!

+0

你能否提供一些更多的细节?文件的内容是什么?你的矩阵是怎样的? –

回答

1

实际上,相似矩阵是关于物体如何与另一物体相似。每行由对象(行ID)的邻居组成,但不需要存储所有邻居,例如仅存储20个邻居。使用lil_matrix: from scipy.sparse import lil_matrix

+0

我后来意识到我不必存储相似度矩阵,只需在推荐时计算它。计算速度并不像我想的那么慢,因为它需要在实践中计算整个矩阵的一小部分。 – arslan