我有一组二维点,我想用K均值算法来划分出正确数量的聚类。查找K均值聚类中的最小方差
我读到,对于固定数量的聚类,我应该运行几次并找到给出最小方差的结果。
例如,说我知道,集群的“正确”的个数为4。因此,在这个例子中的伪代码:
List<kmeansResult> result;
for(int i = 0 ; i < numIteration; ++i)
{
result.Add(kmeans.Compute(4));
}
而且我会获得4类10种不同的方式result
,每个都有其各自的群集差异。
我在这种情况下的问题是如何量化“最小”方差。由于方差在2维中,即var(X)
和var(Y)
,可能存在其中var(X)
被简化但不是var(Y)
的情况。将2合并在一起会是一个很好的措施?
总结一下。这将是到集群质心的距离的方差。 –
@NicoSchertler您假设'covar(X,Y)= 0',这对整个样本集可能是正确的,但很可能不是每个集群都是真实的。 – amit
@amit:我不知道为什么应该计算协方差来计算整体聚类方差。除非你正在寻找椭圆形表示。你的回答基本上是我所建议的,不是吗? –