我已经构建了一个协作过滤算法(余弦项目项目)来揭示项目之间的关系。最后,我的结果数据看起来像这样,图形集群工具
itemNo relatedItemNo similarityValue
1546301 1543903 0.10767638
1546301 1530836 0.093250481
1546301 1479721 0.10767638
1557616 1573636 0.121267813
1557616 1558024 0.161690417
1086551 1437760 0.127000127
1086551 1552321 0.083333333
1086551 1578137 0.127000127
1086551 1560842 0.081110711
....... ....... ...........
现在我想对它进行聚类。使用项目之间的相似性值我想要得到一些集群说1546301,1479721,1543903是在集群A; 1086551,1552321,1560842在群集B中。
我该如何管理?我不熟悉数据挖掘,因此即使是简单的工具也很难使用。
我知道这叫做Graph Clustering,Ive下载了igraph for r,安装了cluto并尝试了一些步骤,但我甚至都没有明白它们的输入数据格式。
你能告诉我方式吗? :)
非常感谢您的回答。我安装了python和networkx。但无法获得结果。我将添加我的数据视图和错误消息。我不明白为什么它说不能将节点1,2转换成int类型。 http://arge.kariyer.net/images/test/Capture.PNG和http://arge.kariyer.net/images/test/Capture2.PNG你有什么想法吗? – can
很抱歉听到这个消息,感谢分享错误,看过他们,我不认为他们是“展示瓶颈”。那么,我可以请你问一下'G = networkx.read_edgelist(“evet.csv”,delimiter =“,”)'。这意味着您将CSV保存为以逗号分隔而非空格分隔的文件。 –
谢谢你的回答,但它没有改变,你可以在这里看到http://arge.kariyer.net/images/test/Capture3.PNG。我使用Visual Studio作为IDE。它可能是相关的吗?还有什么想法? – can