Streaming Kmeans Spark JAVA

嗨基本上我们想使用KAFKA + SPARK Streaming来捕捉我们的论文中的Twitter垃圾邮件。我想用streamingKmeans。但我有非常新手和严肃的问题：Streaming Kmeans Spark JAVA

model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()

为什么我需要通过“标签”与特征？我的意思是，我错了整个想法？我们不是要预测“标签”吗？如果他们是垃圾邮件，我如何预测我的推文？

对于预测，只使用lp.features，而lp.label被认为是延续的关键。引用来自docs：

使用该模型对DStream的值进行预测并将其结果保留。

我在你的榜样猜你只是想通过predictOn

2016-04-30 07:52:37

谢谢主席先生更换predictOnValues。我一定会尝试这个。顺便说一句，你知道我可以加入的任何gitter或懒散的房间问我的问题吗？ –

谢谢你接受答案。我不会有这样的房间，但我认为，对于回答良好的问题，SO总是非常开放 –

回答