平分文档聚类的KMeans

-3

我目前正在对文档聚类进行研究。我想在我的数据集（文本文档）上运行Java平分KMeans。任何人都可以提供相同的代码。最终运行将使用MapReduce在Hadoop中运行。平分文档聚类的KMeans

谢谢。

2015-02-12 Document Clustering

你看过Mahout或Spark MLLib来编写你的聚类算法吗？这些是Hadoop机器学习的事实上的行业标准。这两个图书馆都有K-Means（等等），但都没有发布版本的平分K-Means。在Github的Spark项目中有一个pull request，用于分层K均值（SPARK-2429）（不确定这与平分K均值是否相同）。

我想说的另一点是你考虑Spark而不是MapReduce。对于像K-Means这样的迭代算法，Spark更高效。

来源

2015-02-12 06:58:35

平分文档聚类的KMeans

回答

相关问题