将K-means集群信息Apache Spark提取到JSON中

-1

我将在Spark上实现k-means。但是我需要以JSON格式存储集群信息。如何做呢？将K-means集群信息Apache Spark提取到JSON中

注意：Python或Scala也可以。

提前致谢！

来源

2016-01-13 insomniac

您复制了示例页面上的代码。我们应该怎么做呢？ – eliasah

看看模型出口api： https://spark.apache.org/docs/1.6.0/mllib-pmml-model-export.html –

@eliasah对不起，我是新的火花和所有。我会实现与示例代码相同的k-mean，并且我们在最后得到的那个集群，我需要JSON中的信息并将其存储在文件中 – insomniac

KMeansModel.clusterCenters只是一个本地数据结构（在Scala/Java中的Array[Vector]，Python中的NumPy数组列表）。这意味着你可以使用标准的JSON处理库。例如使用Python：

import json 
json.dumps({"centers": [list(x) for x in clusters.clusterCenters]})

如果JSONL是可以接受的，你也可以并行中心，并使用DataFrameWriter.write.json。

val clusters: org.apache.spark.mllib.clustering.KMeansModel = ??? 
sc.parallelize(clusters.clusterCenters.zipWithIndex, 1) 
    .toDF("center", "id") 
    .write.json("centers.jsonl")

来源

2016-01-13 20:08:04 zero323

将K-means集群信息Apache Spark提取到JSON中

回答

相关问题