0
我试图将k-means算法实现为大型数据集,因为k-means的目标是将一组数据点划分为k个群集。 我不确定我是否会用k-means群集对数据集进行重新分区,它是否能够提高数据处理的性能?k-均值算法会提高数据处理的性能吗?
我试图将k-means算法实现为大型数据集,因为k-means的目标是将一组数据点划分为k个群集。 我不确定我是否会用k-means群集对数据集进行重新分区,它是否能够提高数据处理的性能?k-均值算法会提高数据处理的性能吗?
答案是肯定的。试试这个,
将原始数据集分成块;称为单位块(UB)的每个块单元包含至少一个图案。我们可以通过简单的计算来定位单位块(CUB)的质心。所有计算的CUB形成表示原始数据集的简化数据集。然后将缩小的数据集用于计算原始数据集的最终质心。我们只需要在候选集群的边界上检查每个UB,为UB中的每个模式找到最接近的最终质心。这样,我们可以大大缩短计算最终收敛质心的时间。
谢谢!这真的很有帮助!但它是否能够提高处理速度,如数据查询或计算到大型数据集? –
在我们的实验中,该算法产生了与其他k均值算法相当的聚类结果,但性能更好。试试你的数据集。 – SIlverstripeNewbie