我正在寻找计算用户和文本文档之间使用其主题表示的相似度。即每个文档和用户由主题向量(例如神经科学,技术等)表示,并且该主题与用户/文档有多相关。基于主题的文本和用户相似度
我的目标是计算这些向量之间的相似度,以便我可以找到相似的用户,文章和推荐的文章。
我试过使用Pearson Correlation,但是一旦它达到〜40k篇文章和向量的长度在10k左右,它最终会花费太多的内存和时间。
我正在使用numpy。
你能想象更好的方法来做到这一点吗?或者它是不可避免的(在一台机器上)?
谢谢
只为了解:gensim会为我做的是降维(使用lsi或lda),对不对?它仍然会使用皮尔逊的相关性来找出相似之处,对吧? – user1491915