2016-07-28 52 views
1

我有两个点的聚类。在我应用任何聚类技术之前,我确切知道每个聚类应该属于哪些点,但标记数据的唯一方法是使用k-means等聚类技术。如果我所处的情况似乎令人费解,我不关注它,但我更关心k-means这个潜在的具体问题。不均匀簇聚类(k-means)

说我的数据看起来像这样(在X-Y平面简单的2D分):

enter image description here

我想分两个集群但有一个小问题。当我运行一个K-means算法我结束了这样的事情:

enter image description here

我要补充这只是一个草图例子。

我遇到的问题是,在算法运行之前,群集中的点数极其不均匀,然后它在算法聚类结束时有一个显着的结果,直到它遮蔽数据。当然,这只是一个问题,当群集模糊地靠在一起时,我想知道是否有一个k-means变体或其他聚类算法可以非常好地处理不同群体大小的群体。我试图找到这样的东西,但我担心我使用了错误的搜索术语,如“不均匀k-均值聚类群体”和类似的短语,只能使我得到关于更快k均值实现和其他统计分析组合的论文。

只是想休息一下。我已经运行了k-means几次,结果总是上面的草图,两个视觉集群之间的集群质心。

如果这只是一个缺点k-手段(我可以看到它是如此),那么我可以接受。

+0

你是如何选择初始质心的。 –

+0

@AbhishekBansal随机。 – ZoSal

+0

您是否尝试过使用**密度**或**分层聚类**(或其他100个聚类算法中的任何一种)? –

回答

2

K-Means算法的输出在很大程度上取决于您选择的初始质心。如果您选择彼此靠近的质心,那么您获得的簇将会偏斜。

此外,如果真集群具有不平衡的数据点数量,那么通过随机选择初始质心,您很可能会从同一集群中选择初始质心。

因此,我建议您尝试选择尽可能分开的初始质心。这应该是可能的,因为你的观点是2D。

您甚至可以探索凝聚聚类方法,如单链接或完整链接算法。

也就是说,这些算法不能保证最佳结果,所以你将不得不满足一些次优。

希望这会有所帮助。