我试图运行K均值聚类下面一组数据的K均值聚类CSV文件,如何采取键和值在中亨利马乌
Name,Gender,Age,Drinks,Country
John,M,30,Pepsi,US
Jack,M,25,Coke,US
David,M,34,Pepsi,UK
Ted,M,37,Limca,CAN
Robert,M,23,Limca,US
Adrian,M,31,Pepsi,US
Craig,M,37,Coke,UK
Katie,F,23,Limca,UK
Nancy,F,32,Pepsi,UK
我想基于集群的饮料(数据百事可乐,可口可乐,Limca),我可以做到这一点。但我想回顾一下名称以及集群数据。
我得到的输出是
0
1
2
Limca belongs to cluster:0
Cokde belongs to cluster:0
etc.
在这里,我想的名字也。
而转换为序列文件我拿着钥匙饮料和值作为文本的休息和转换为斯帕塞夫克托,然后运行K均值聚类,名称不打印。 任何人都可以指出我如何从值中存在的集群中提取名称。
:谢谢你的回答,我没有得到你的答案。我有一个来自社交媒体数据的50k记录,如上面给出的样本。我想对它们进行聚类,以便应该有各种饮料的聚类。例如:聚簇百事可乐这是在mahout集群的正确问题。 – maali
如果问题很简单,可以根据饮料对用户进行分组,只需使用数据库查询而不是集群。对于一个复杂的事情,需要进行聚类,例如根据多个特征(如年龄,性别,分组等)形成聚类,或者如果数据集太分散,不像{PEPSI,COKE等}定义的集合。 – Swamy
谢谢,我能够通过多个功能集群,感谢指针.. – maali