0
我使用下面的代码导出DataFrame
:如何合并两个文本文件,并转换成csv文件斯卡拉
df.select("A", "b", "C", "D","E")
.write.format("com.databricks.spark.csv")
.save("newiris.csv")
我得到两个文本文件如下:
部分00000
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
部分00001
6.7,3,5,1.7,Iris-versicolor
6,2.9,4.5,1.5,Iris-versicolor
5.7,2.6,3.5,1,Iris-versicolor
5.5,2.4,3.8,1.1,Iris-versicolor
5.5,2.4,3.7,1,Iris-versicolor
5.8,2.7,3.9,1.2,Iris-versicolor
现在我想拥有它们组合成一个文件中像
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
6.7,3,5,1.7,Iris-versicolor
6,2.9,4.5,1.5,Iris-versicolor
5.7,2.6,3.5,1,Iris-versicolor
5.5,2.4,3.8,1.1,Iris-versicolor
5.5,2.4,3.7,1,Iris-versicolor
5.8,2.7,3.9,1.2,Iris-versicolor
然后将其转换为CSV。我如何在Scala中做到这一点?
非常感谢!当我做val part00002 =新文件(“part-00002”)我得到一个错误没有找到:键入文件。我需要定义文件还是导入? – Tong
'import java.io._'应该这样做。 – Brian
谢谢!它工作完美。还有一个问题,如果part-00000和part-00001采用csv格式,这个操作会更容易吗? – Tong