-1
我想根据他/她的兴趣(大学项目)向用户推荐朋友的推荐系统。 我准备的用户信息和用户利益的数据集(CSV文件): 他们在格式:聚类的字符串数组之间的距离计算
"abcd","pqr","[email protected]","adf332" //userDetail
"Henry","Clifford","[email protected]","sa1xVP" //userDetail
在另一个文件中:
"Henry","Clifford","Painting Photography EDM Algorithms Squash Graffiti Folk-music Badminton" //User interests
现在我想对群集用户他们利益之间的相似性的基础。 我想这样做,整个兴趣字符串与其他用户不单独(这将需要很多时间)进行比较。 我有大约1,700,000个用户的数据。 我被困在计算我可以在聚类算法中使用的用户的距离矩阵。
我试图Levenshtein距离但是这将无法正常工作,如果利益阵列[ a,b,c,d]
不会等于[c,d,b,a]
另外我感到困惑其上ALGO是最好的用于此目的(k均值,模糊cmeans或分层算法)。
我想输出为用户群,使他们的兴趣数组匹配。
即使经过大量搜索,我仍无法在网上找到令人满意的结果。
关于如何为这样的字符串数组创建距离矩阵的任何想法?