我想从apache Spark的mlib库中做一个kmeans聚类算法。我有一切设置,但我不确定如何去格式化输入数据。我对机器学习相对来说比较陌生,所以不胜感激。 在示例data.txt中的数据如下: 0.0 0.0 0.0 0.1 0.1 0.1 0.2 0.2 0.2 9.0 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2
如何格式化Spark Spark kmeans聚类算法的数据?
而我要运行的算法是这种格式现在(JSON阵列)的数据:
[{"customer":"ddf6022","order_id":"20031-19958","asset_id":"dd1~33","price":300,"time":1411134115000,"location":"bt2"},{"customer":"ddf6023","order_id":"23899-23825","asset_id":"dd1~33","price":300,"time":1411954672000,"location":"bt2"}]
我怎样才能将它转换成可与k-means聚类算法一起使用的东西?我正在使用Java,我猜我需要它是JavaRDD格式,但不知道如何去做。