我有用户组及其关联词。这是我已分组它们:如何表示k数据表示聚类
我已关联的每个字与数目,且如果用户没有任何的这些词语相关联的I得到的值0:
谷歌:1 计算器:2 数学:3 编程:4 noword:0
要运行K-means算法我词语相关联,如下所示:
username google stackoverflow math programming
user1 1 0 3 0
user2 1 2 0 4
user3 0 2 3 0
user4 1 1 0 4
这是一个正确实施如何对每个用户进行聚类,并根据他们配置的单词检查彼此之间的距离。
我在此基础实施:http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/K-Means
尤其是本节:您的数据可以构造为二进制
只是再次查看您的答案,为什么代表我的数据有问题?即:为每个单词分配一个唯一的数值 –
简短的答案是因为你的聚类目标,它会找到那些距离相近的用户。距离对你如何使用它没有意义。换句话说,您的原始构造意味着这些特征是名义上的,但大多数聚类方法(如K均值)隐含地假设数据是按照[比例尺](https://en.wikipedia.org/wiki/Level_of_measurement# Ratio_scale)。 – ramhiser