2016-02-11 36 views
4

我有一个由文本数组组成的spark rdd(words)。举个例子,使用数组对象计算Spark RDD中的不同文本

words.take(3) 

会返回类似的东西。

[ ["A", "B"], ["B", "C"], ["C", "A", "D"] ] 

现在,我想知道文本的总数以及文本的唯一数量。如果RDD只有上述3个记录,

total_words = 7 
unique_words = 4 (only A, B,C,D) 

现在要为了得到总,我也做了类似这样的

text_count_rdd = words.map(lambda x: len(x)) 
text_count_rdd.sum() 

的东西,但是我卡在如何检索独特的计数。

回答

1

只是flatMap,采取distinctcount

words.flatMap(set).distinct().count() 
相关问题