使用数组对象计算Spark RDD中的不同文本

我有一个由文本数组组成的spark rdd（words）。举个例子，使用数组对象计算Spark RDD中的不同文本

words.take(3)

会返回类似的东西。

[ ["A", "B"], ["B", "C"], ["C", "A", "D"] ]

现在，我想知道文本的总数以及文本的唯一数量。如果RDD只有上述3个记录，

total_words = 7 
unique_words = 4 (only A, B,C,D)

现在要为了得到总，我也做了类似这样的

text_count_rdd = words.map(lambda x: len(x)) 
text_count_rdd.sum()

的东西，但是我卡在如何检索独特的计数。

2016-02-11 rclakmal

只是flatMap，采取distinct和count：

words.flatMap(set).distinct().count()

2016-02-11 18:30:12 zero323

回答