我有两个点的聚类。在我应用任何聚类技术之前,我确切知道每个聚类应该属于哪些点,但标记数据的唯一方法是使用k-means等聚类技术。如果我所处的情况似乎令人费解,我不关注它,但我更关心k-means这个潜在的具体问题。不均匀簇聚类(k-means)
说我的数据看起来像这样(在X-Y平面简单的2D分):
我想分两个集群但有一个小问题。当我运行一个K-means算法我结束了这样的事情:
我要补充这只是一个草图例子。
我遇到的问题是,在算法运行之前,群集中的点数极其不均匀,然后它在算法聚类结束时有一个显着的结果,直到它遮蔽数据。当然,这只是一个问题,当群集模糊地靠在一起时,我想知道是否有一个k-means变体或其他聚类算法可以非常好地处理不同群体大小的群体。我试图找到这样的东西,但我担心我使用了错误的搜索术语,如“不均匀k-均值聚类群体”和类似的短语,只能使我得到关于更快k均值实现和其他统计分析组合的论文。
只是想休息一下。我已经运行了k-means几次,结果总是上面的草图,两个视觉集群之间的集群质心。
如果这只是一个缺点k-手段(我可以看到它是如此),那么我可以接受。
你是如何选择初始质心的。 –
@AbhishekBansal随机。 – ZoSal
您是否尝试过使用**密度**或**分层聚类**(或其他100个聚类算法中的任何一种)? –