-3

我目前正在对文档聚类进行研究。 我想在我的数据集(文本文档)上运行Java平分KMeans。 任何人都可以提供相同的代码。 最终运行将使用MapReduce在Hadoop中运行。平分文档聚类的KMeans

谢谢。

回答

0

你看过MahoutSpark MLLib来编写你的聚类算法吗?这些是Hadoop机器学习的事实上的行业标准。这两个图书馆都有K-Means(等等),但都没有发布版本的平分K-Means。在Github的Spark项目中有一个pull request,用于分层K均值(SPARK-2429)(不确定这与平分K均值是否相同)。

我想说的另一点是你考虑Spark而不是MapReduce。对于像K-Means这样的迭代算法,Spark更高效。