我想用Apache Spark的MLlib建立一个分类系统。我有入围的朴素贝叶斯算法来做到这一点,并将使用Java 8来支持Lambda表达式。在lambda表达式方面,我是一个新手,因此在Java中实现它们时遇到困难。Java中Spark MLlib的分类
我指的是下面的链接,其具有用Scala编写的样本,但我有一个很难将其转换成Java 8
我被困在下面的操作,不能让我周围的头,由于我不熟悉斯卡拉,
val idfs = (termDocsRdd.flatMap(termDoc => termDoc.terms.map((termDoc.doc, _))).distinct().groupBy(_._2) collect {
// if term is present in less than 3 documents then remove it
case (term, docs) if docs.size > 3 =>
term -> (numDocs.toDouble/docs.size.toDouble)
}).collect.toMap
可有人请点我有关如何同时利用火花RDD操作的DIS建立TFIDF向量文本文档样本的正确方向贡献处理?
谢谢很多samthebest!这有很大帮助。我试图将其转换成Java,并会让你知道它是如何发生的。 – jatinpreet 2014-09-03 08:02:49