聚类的字符串数组之间的距离计算

-1

我想根据他/她的兴趣（大学项目）向用户推荐朋友的推荐系统。我准备的用户信息和用户利益的数据集（CSV文件）：他们在格式：聚类的字符串数组之间的距离计算

"abcd","pqr","[email protected]","adf332" //userDetail 
"Henry","Clifford","[email protected]","sa1xVP" //userDetail

在另一个文件中：

"Henry","Clifford","Painting Photography EDM Algorithms Squash Graffiti Folk-music Badminton" //User interests

现在我想对群集用户他们利益之间的相似性的基础。我想这样做，整个兴趣字符串与其他用户不单独（这将需要很多时间）进行比较。我有大约1,700,000个用户的数据。我被困在计算我可以在聚类算法中使用的用户的距离矩阵。

我试图Levenshtein距离但是这将无法正常工作，如果利益阵列[ a,b,c,d]不会等于[c,d,b,a]

另外我感到困惑其上ALGO是最好的用于此目的（k均值，模糊cmeans或分层算法）。

我想输出为用户群，使他们的兴趣数组匹配。

即使经过大量搜索，我仍无法在网上找到令人满意的结果。

关于如何为这样的字符串数组创建距离矩阵的任何想法？

2014-05-08 Arun

不处理原始数据。

提取特征，例如使用词语向量空间模型包和TF-IDF加权。

2014-05-08 14:23:37

回答