2016-12-22 26 views
0

我正在研究Spark MLlib(Scala)的Bisecting K-Means算法。我使用的Spark版本是2.0.2。看看Spark示例代码(examples/src/main/scala/org/apache/spark/examples/ml/BisectingKMeansExample.scala)以及平分K-Means的方法,我很难理解应该怎么做从类BisectingKMeansModel中检索指定的群集ID /号码(不是群集中心)。如何从Spark 2.0.2(Scala)中的平分K-Means获取集群ID /数字(不只是集群中心)

在Spark/Scala的K-Means实现中,可以使用KMeansModel.summary.predictions来检索集群。

我想知道是否有来自平分K-Means模型

回答

0

检索集群的有效方法(而不是作为示例使用了聚类中心),我发现这个问题的答案。它应该是KMeansModel.transform(dataset)。这将添加群集索引作为数据集中的一部分

0
model.predict(vectordata) 

这对我有用。如果你不想丢失密钥或其他数据,你可以称它为这样。

val NewData = data.map(t => 
(t._1, 
model.predict(t._2) 
)