我对Spark很新,我有一个问题。在apache-spark RDD中处理多个'行'
我尝试用一些数据做简单的情感分析。 在数据文件中,每行包含产品评论。
这里是我的处理一行代码:
// wordlist
val pos_file = "/user/cloudera/Data/pos_list.txt"
val neg_file = "/user/cloudera/Data/neg_list.txt"
val pos_words = sc.textFile(pos_file).cache().collect().toSet
val neg_words = sc.textFile(neg_file).cache().collect().toSet
val test_string = "Line with positive or negative review."
val test_rdd = sc.parallelize(List(test_string))
val test_rdd2 = test_rdd.flatMap(line => "[a-zA-Z]+".r findAllIn line map (_.toLowerCase))
val pos = test_rdd2.filter(x => pos_words contains x)
val neg = test_rdd2.filter(x => neg_words contains x)
我现在的问题是如何处理在RDD每个记录(在这种情况下,3):
val file_in = "/user/cloudera/Data/teststring.txt"
val data = sc.textFile(file_in).cache()
val reviews = data.flatMap(_.split("\n"))
scala> reviews.count()
res29: Long = 3
下面的代码
val reviews2 = reviews.flatMap(line => "[a-zA-Z]+".r findAllIn line map (_.toLowerCase))
给我所有的单词。 我想获得每行/评论pos和neg的值。 计算非常简单:如果一个单词位于pos_words/neg_words集合中,则将其置于pos/neg中。实际上,我只是指出了正面或负面词语的出现。
我该如何得到像'''''',''''''的值?
提前感谢
该行在review2会给你所有的单词在一行,而不是一个cummulated pos/neg值。不知道你的分数应该如何计算。你能更新你的例子吗? – maasg 2015-03-02 19:02:10
是的,你是对的。 如果我加载一个文本文件,文本文件中的每一行都是一个评论。我想为每行/评论获取pos和neg的值。 计算非常简单:如果一个单词位于pos_words/neg_words集合中,则将其置于pos/neg中。实际上,我只是指出了正面或负面词语的出现。 我的问题是reviews2包含了所有评论的单词,所以我无法统计单行的单词。 – bademaster 2015-03-03 13:20:06