2017-01-03 124 views
0

我有一个数据集,我知道有3个类。假设我想对这个数据集执行k-means分类,k = 10。我会获得10个集群。我将如何将这10个群集合并到3个类中,并根据我要做什么规则(例如距离度量)?K均值分类

非常感谢

回答

1

你可以在你的集群再次运行K-均值,这一次设置K = 3。或者你可以对它们执行期望最大化。或者你可以用蛮力去测试所有120种将10个簇合并为3的方法。

做事的正确方法是从一开始就设置k = 3。具有错误类别的k-means解决方案可能非常不合适。

+1

这可能是因为数据有3个类别,但分为10个不同的区域,所以运行K = 3的Kmeans将不起作用,因为它使用最接近的质心进行分类。例如,异或问题有2个类,但不适用于K = 2,您需要K = 4,然后进行额外合并。 –

+1

似乎合并逻辑将完全依赖于问题,然后。 –