0
我有rdd
类型RDD[(String, String)]
,我想输出RDD[(String, String, Int)]
其中int
将被计数的类似集合。例如:Apache Spark - 如何计算配对RDD中的相似键/值对
输入RDD:
java, perl
.Net, php
java, perl
输出RDD:
java, perl, 2
.Net, php, 1
我尝试添加Int
在Input RDD
(如1),所以,现在Input RDD
变为:
[(String, String, Int)]
其中Int
为1.
但是t.reduceByKey((a,b,c) => (a,b,c))
发生错误。
感谢Orions队的答复。其实我需要输出显示在数据框中。如果我将使用df()函数将输出转换为数据框,则会生成两列,但我需要三列输出。第1列skill1(java),第2列skill2(perl),第3列count(int)。 –