2016-04-30 166 views
0

嗨基本上我们想使用KAFKA + SPARK Streaming来捕捉我们的论文中的Twitter垃圾邮件。我想用streamingKmeans。但我有非常新手和严肃的问题:Streaming Kmeans Spark JAVA

在这种火花StreamingKmeans Scala的例子(https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingKMeansExample.scala)没有进行预测的一行代码:

model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()

为什么我需要通过“标签”与特征 ?我的意思是,我错了整个想法?我们不是要预测“标签”吗?如果他们是垃圾邮件,我如何预测我的推文?

回答

0

对于预测,只使用lp.features,而lp.label被认为是延续的关键。引用来自docs

使用该模型对DStream的值进行预测并将其结果保留。

我在你的榜样猜你只是想通过predictOn

+0

谢谢主席先生更换predictOnValues。我一定会尝试这个。顺便说一句,你知道我可以加入的任何gitter或懒散的房间问我的问题吗? –

+0

谢谢你接受答案。我不会有这样的房间,但我认为,对于回答良好的问题,SO总是非常开放 –