2016-09-06 97 views
1

我是新来的scala和火花,我试图将一个Tab分解文件转换为CSV文件,以进一步将其转换为RDD。 其实我试图使用sc.textFile将Tab分隔文件转换为RDD。它正在实施,但之后的结果如.first(),.take(n)不是很系统,即使在使用foreach(println)后也无法正确读取。 我试图使用Excel将文件转换为csv,但数据大小非常大,它并没有在第一个地方加载。 是否有任何简单的ay 将Tab分隔文件转换为CSV以便获得上述问题的系统结果。转换制表符分隔文件为csv文件

+0

http://carminedimascio.com/2015/ 02/apache-spark-convert-csv-to-rdd /也许你可以提供你到目前为止已经尝试过的和你的csv样本? – sascha10000

+0

看看这个答案:http://stackoverflow.com/a/33898041 – mfirry

回答

0

这里是一个小教程:

比方说,你TSV的数据是: row11 \t row12 \t row13... \t row1n row21 \t row22 \t row23... \t row2n 阅读本文件作为字符串RDD:

val readFile = sc.textFile("FILEPAHT HERE")

解析它的内容通过使用标签分隔符:

val parseRows = readFile.map(row => row.split("\t"))

转换行阵列成分隔的字符串 “”

val outputCsvRdd = parseRows.map(row => row.mkString(","))

写出这将是一个CSV文件:

相关问题