2016-09-29 28 views
-1

我正在查看代码片段以查找使用scala在hadoop中的子目录下读取多个嵌套JSON文件的最佳实践。如何使用Scala读取子目录下的多个Json文件

如果我们可以在hadoop中的其他目录中写入上述JSON文件中的单个文件,那会更好。

任何帮助表示赞赏。

感谢 PG

+0

:您正在使用的Spark使用Scala API或你如何在Hadoop中使用Scala呢? – Shankar

+0

感谢您的回复。我正在使用spark与scala API。 – user3054752

+0

您可以使用'sqlContext.read.json(“json file path”)'来读取json文件,它会返回一个'DataFrame'。但是你说嵌套的目录,是JSON文件有不同的架构? – Shankar

回答

0

您可以使用sqlContext.read.json("input file path")来读取JSON文件,它返回一个数据帧。

获得DataFrame后,只需使用df.write.json(“output file path”)将DF写为json文件即可。

代码例如:如果你使用的Spark 2.0

val spark = SparkSession 
     .builder() 
     .appName("Spark SQL JSON example") 
     .getOrCreate() 

     val df = spark.read.json("input/file/path") 

     df.write.json("output/file/path") 
相关问题