1
我想使用spark shell从HDFS加入两个文件。 这两个文件是制表符分隔,我想加入的第二列在Spark中加入两个HDFS文件
试过代码 但不给任何输出
val ny_daily= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock /NYSE_daily"))
val ny_daily_split = ny_daily.map(line =>line.split('\t'))
val enKeyValuePair = ny_daily_split.map(line => (line(0).substring(0, 5), line(3).toInt))
val ny_dividend= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock/NYSE_dividends"))
val ny_dividend_split = ny_dividend.map(line =>line.split('\t'))
val enKeyValuePair1 = ny_dividend_split.map(line => (line(0).substring(0, 4), line(3).toInt))
enKeyValuePair1.join(enKeyValuePair)
但我没有得到有关如何加入对特定列 文件的任何信息请建议
什么我应该把JOIN的关键和价值,因为我想加入列和作为输出我应该能够看到整个加入数据集 –
然后改变你的'地图'功能''ny_daily_split.map(line =>线(1) - > line.mkString(“\ t”))''和'ny_dividend_split.map(line => line(1) - > line.mkString(“\ t”))''。 – fedragon