我有两个数据集加入两个数据集一样, (电影名,女演员的名字)和 (电影名,导演的名字)通过使用Scala的火花第一列
我想通过加入他们的行列(电影名称,女演员的名字,导演的名字)。
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import scala.io.Source
object spark {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setAppName("FindFrequentPairs").setMaster("local[2]")
val sc = new SparkContext(sparkConf)
val text1: RDD[String] = sc.textFile(args(0))
val text2: RDD[String] = sc.textFile(args(1))
val joined = text1.join(text2)
我试图使用'join',但它说'无法解析符号连接'。 你有什么想法如何加入他们?
这是我的数据集的一部分,(filme name,actress)。
('"Please Like Me" (2013) {Rhubarb and Custard (#1.1)}', '$haniqua')
('"Please Like Me" (2013) {Spanish Eggs (#1.5)}', '$haniqua')
('A Woman of Distinction (1950) (uncredited)', '& Ashour, Lucienne')
('Around the World (1943) (uncredited)', '& Ashour, Lucienne')
('Chain Lightning (1950) (uncredited)', '& Ashour, Lucienne')
你的数据集都是'RDD [字符串]'...你会至少需要它们的格式为'RDD [(String,String)]'。 – Alec
但是,如果我使用RDD [(String,String)],它表示'RDD [String]的表达式不符合期望的类型RDD [(String,String)]。那么,我应该转换文本文件吗? – tobby
当然会!我的意思是你必须做一些工作来将你的数据集转换成正确的形式。数据集中的字符串是否为“”(,)? –
Alec