不均匀簇聚类（k-means）

我有两个点的聚类。在我应用任何聚类技术之前，我确切知道每个聚类应该属于哪些点，但标记数据的唯一方法是使用k-means等聚类技术。如果我所处的情况似乎令人费解，我不关注它，但我更关心k-means这个潜在的具体问题。不均匀簇聚类（k-means）

说我的数据看起来像这样（在X-Y平面简单的2D分）：

我想分两个集群但有一个小问题。当我运行一个K-means算法我结束了这样的事情：

我要补充这只是一个草图例子。

我遇到的问题是，在算法运行之前，群集中的点数极其不均匀，然后它在算法聚类结束时有一个显着的结果，直到它遮蔽数据。当然，这只是一个问题，当群集模糊地靠在一起时，我想知道是否有一个k-means变体或其他聚类算法可以非常好地处理不同群体大小的群体。我试图找到这样的东西，但我担心我使用了错误的搜索术语，如“不均匀k-均值聚类群体”和类似的短语，只能使我得到关于更快k均值实现和其他统计分析组合的论文。

只是想休息一下。我已经运行了k-means几次，结果总是上面的草图，两个视觉集群之间的集群质心。

如果这只是一个缺点k-手段（我可以看到它是如此），那么我可以接受。

来源

2016-07-28 ZoSal

你是如何选择初始质心的。 –

@AbhishekBansal随机。 – ZoSal

您是否尝试过使用**密度**或**分层聚类**（或其他100个聚类算法中的任何一种）？ –

K-Means算法的输出在很大程度上取决于您选择的初始质心。如果您选择彼此靠近的质心，那么您获得的簇将会偏斜。

此外，如果真集群具有不平衡的数据点数量，那么通过随机选择初始质心，您很可能会从同一集群中选择初始质心。

因此，我建议您尝试选择尽可能分开的初始质心。这应该是可能的，因为你的观点是2D。

您甚至可以探索凝聚聚类方法，如单链接或完整链接算法。

也就是说，这些算法不能保证最佳结果，所以你将不得不满足一些次优。

希望这会有所帮助。

来源

2016-07-28 17:14:27

不均匀簇聚类（k-means）

回答

相关问题