我使用mllib创建了一个使用Apache Spark的ML管道。 评估结果是一个DataFrame,其中有一列“probability”,它是概率的mllib向量(类似于scikit-learn中的predict_proba)。mllib矢量的最大值?
val rfPredictions = rfModels.bestModel.transform(testing)
val precision = evaluator.evaluate(rfPredictions)
我想这样的事情没有成功:
rfPredictions.select("probability").map{c => c.getAs[Vector](1).max}
<console>:166: error: value max is not a member of
org.apache.spark.mllib.linalg.Vector
我想这个概率最大的新列。有任何想法吗?
是的,我认为作品。作为结果,我得到了一个RDD [Double],所以我无法将其添加为DataFrame中的列。我怎样才能做到这一点?谢谢! – marlanbar