2014-05-08 72 views
-1

我想根据他/她的兴趣(大学项目)向用户推荐朋友的推荐系统。 我准备的用户信息和用户利益的数据集(CSV文件): 他们在格式:聚类的字符串数组之间的距离计算

"abcd","pqr","[email protected]","adf332" //userDetail 
"Henry","Clifford","[email protected]","sa1xVP" //userDetail 

在另一个文件中:

"Henry","Clifford","Painting Photography EDM Algorithms Squash Graffiti Folk-music Badminton" //User interests 

现在我想对群集用户他们利益之间的相似性的基础。 我想这样做,整个兴趣字符串与其他用户不单独(这将需要很多时间)进行比较。 我有大约1,700,000个用户的数据。 我被困在计算我可以在聚类算法中使用的用户的距离矩阵。

我试图Levenshtein距离但是这将无法正常工作,如果利益阵列[ a,b,c,d]不会等于[c,d,b,a]

另外我感到困惑其上ALGO是最好的用于此目的(k均值,模糊cmeans或分层算法)。

我想输出为用户群,使他们的兴趣数组匹配。

即使经过大量搜索,我仍无法在网上找到令人满意的结果。

关于如何为这样的字符串数组创建距离矩阵的任何想法?

回答

0

不处理原始数据。

提取特征,例如使用词语向量空间模型包和TF-IDF加权。