我用下面的代码创建集群化模型,然后进行分类每个记录某些集群:pyspark:追加/合并PythonRDD到pyspark数据帧
from pyspark.mllib.clustering import KMeans
from pyspark.mllib.linalg import Vectors
spark_df = sqlContext.createDataFrame(pandas_df)
rdd = spark_df.rdd.map(lambda data: Vectors.dense([float(c) for c in data]))
model = KMeans.train(rdd, 2, maxIterations=10, initializationMode="random")
result = model.predict(red)
如何追加预测结果回spark_df作为附加列吗?谢谢!
为什么不首先使用'ml'? – zero323
我无法将spark_df(数据框)转换为spark数据集。如果我只是使用ml的数据帧,它将无法工作。有关如何将数据框转换为数据集的建议?谢谢! – Edamame
如果我使用ml:model = kmeans.fit(spark_df),则出现错误:AnalysisException:u“无法解析给定输入列的'features':[field_1,field_2,... field10];”所以在我看来,我不能直接使用spark_df – Edamame