项目到项目的协同过滤，如何管理相似矩阵？

我在推荐引擎上工作，我现在面临的一个问题是项目的相似度矩阵非常大。项目到项目的协同过滤，如何管理相似矩阵？

我计算了2万个项目的相似度矩阵，并将它们存储为一个二进制文件，该文件调整为接近1 GB。我认为这太大了。

如果您有很多项目，处理相似性矩阵的最佳方法是什么？

有任何建议！

2017-03-02 arslan

你能否提供一些更多的细节？文件的内容是什么？你的矩阵是怎样的？ –

实际上，相似矩阵是关于物体如何与另一物体相似。每行由对象（行ID）的邻居组成，但不需要存储所有邻居，例如仅存储20个邻居。使用lil_matrix： from scipy.sparse import lil_matrix

2017-05-09 16:25:08 rustohero

我后来意识到我不必存储相似度矩阵，只需在推荐时计算它。计算速度并不像我想的那么慢，因为它需要在实践中计算整个矩阵的一小部分。 – arslan

回答