k-均值算法会提高数据处理的性能吗？

我试图将k-means算法实现为大型数据集，因为k-means的目标是将一组数据点划分为k个群集。我不确定我是否会用k-means群集对数据集进行重新分区，它是否能够提高数据处理的性能？k-均值算法会提高数据处理的性能吗？

2015-10-23 American curl

答案是肯定的。试试这个，

将原始数据集分成块;称为单位块（UB）的每个块单元包含至少一个图案。我们可以通过简单的计算来定位单位块（CUB）的质心。所有计算的CUB形成表示原始数据集的简化数据集。然后将缩小的数据集用于计算原始数据集的最终质心。我们只需要在候选集群的边界上检查每个UB，为UB中的每个模式找到最接近的最终质心。这样，我们可以大大缩短计算最终收敛质心的时间。

来源

2015-10-23 04:32:43 SIlverstripeNewbie

谢谢！这真的很有帮助！但它是否能够提高处理速度，如数据查询或计算到大型数据集？ –

在我们的实验中，该算法产生了与其他k均值算法相当的聚类结果，但性能更好。试试你的数据集。 – SIlverstripeNewbie

k-均值算法会提高数据处理的性能吗？

回答

相关问题