如何从Spark 2.0.2（Scala）中的平分K-Means获取集群ID /数字（不只是集群中心）

我正在研究Spark MLlib（Scala）的Bisecting K-Means算法。我使用的Spark版本是2.0.2。看看Spark示例代码（examples/src/main/scala/org/apache/spark/examples/ml/BisectingKMeansExample.scala）以及平分K-Means的方法，我很难理解应该怎么做从类BisectingKMeansModel中检索指定的群集ID /号码（不是群集中心）。如何从Spark 2.0.2（Scala）中的平分K-Means获取集群ID /数字（不只是集群中心）

在Spark/Scala的K-Means实现中，可以使用KMeansModel.summary.predictions来检索集群。

我想知道是否有来自平分K-Means模型

来源

2016-12-22 user2129946

检索集群的有效方法（而不是作为示例使用了聚类中心），我发现这个问题的答案。它应该是KMeansModel.transform(dataset)。这将添加群集索引作为数据集中的一部分

来源

2016-12-22 15:01:01 user2129946

model.predict(vectordata)

这对我有用。如果你不想丢失密钥或其他数据，你可以称它为这样。

val NewData = data.map(t => 
(t._1, 
model.predict(t._2) 
)

来源

2017-01-20 20:47:08 Tengansui

如何从Spark 2.0.2（Scala）中的平分K-Means获取集群ID /数字（不只是集群中心）

回答

相关问题