2017-01-17 12 views
0

所以我正在学习有关聚类的k-means算法,并且已经看到了可以使用的几个不同的成本函数,特别是$$ J_ {avg} = \ sum_ {i = 0}^k \ sum_ {x \ in C_i} d(x,m_j)^ 2 $$$$ J_ {IC} = \ sum_ {i = 0}^k \ frac {1} {| C_j | } \ sum_ {x \ in C_i} \ sum_ {x'\ in C_i} d(x,x')^ 2。$$现在我试图证明如果$ m_j = \ frac {1} {C_j} \ sum_ {x \ in C_j} x $ then $ J_ {IC} = 2J_ {avg}。$这对我来说很直观,因为它似乎是距离中心点的平均距离和两点之间的平均距离是中心的两倍)。希望有任何帮助,谢谢!显示两个k-means成本函数是相等的

+0

正如你可能注意到的那样:这里没有胶乳渲染。你的问题似乎与kmeans设置无关。 Kmeans需要一个度量标准,问题是:一些度量标准是否相同? – sascha

+0

@sascha k-means不*使用* allos任意指标。仅在方差中使用它。 –

回答

0

为了使成本函数等价,它们不必完全相等,只是单调相关,所以优化一个就意味着优化另一个。 (Xi-Xj)^ 2 = SUM_ij(Xi-x + x-Xj)^ 2 = SUM_ij(Xi-x)^ 2 +(Xj-x)^ 2 + 2(Xi-x)。 (x - Xj)

如果x是Xi的平均值,那么SUM_j(x - Xj)= 0,所以点乘积项消失,并且得到距平均值的平方和的平方和我认为你需要的任意两点之间的平方距离总和。