2016-01-06 77 views
-1

我目前正在使用python包sklearn.cluster对3D坐标点进行集群分析。寻求作为集群中某一点的集群中心

我已经使用了K均值聚类,它输出一个计算出的聚类中心。我真正想要的是该群集的数据点与该群集中所有其他数据点的最小距离。我猜这在我的数据集中最接近集群中心,但由于我的数据集很大,使用某种最小化搜索算法并不实际。任何其他聚类方法或其他Python脚本的建议可以帮助我找到它?

回答

1

找到离中心最近的一对只有O(n),所以便宜,因为k-means的一次迭代 - 不算太糟糕。

这是比平均值,但你最好的猜测。

注意:它有不是最小的平均距离(欧几里得)。

平均值是最小平方最佳值,它具有最小平方偏差(即平方欧几里得)。

这是平均值和中位数之间的差值。 中位数是最中心的数据点;不是那个意思。但找到中位数比计算平均值要昂贵得多。

应该不难证明最接近均值的点将具有所有数据点的最小平方偏差(尝试显示具有更小RMSD的点必须更接近)。