如何使用Scala读取子目录下的多个Json文件

-1

我正在查看代码片段以查找使用scala在hadoop中的子目录下读取多个嵌套JSON文件的最佳实践。如何使用Scala读取子目录下的多个Json文件

如果我们可以在hadoop中的其他目录中写入上述JSON文件中的单个文件，那会更好。

任何帮助表示赞赏。

感谢 PG

来源

2016-09-29 user3054752

：您正在使用的Spark使用Scala API或你如何在Hadoop中使用Scala呢？ – Shankar

感谢您的回复。我正在使用spark与scala API。 – user3054752

您可以使用'sqlContext.read.json（“json file path”）'来读取json文件，它会返回一个'DataFrame'。但是你说嵌套的目录，是JSON文件有不同的架构？ – Shankar

您可以使用sqlContext.read.json("input file path")来读取JSON文件，它返回一个数据帧。

获得DataFrame后，只需使用df.write.json（“output file path”）将DF写为json文件即可。

代码例如：如果你使用的Spark 2.0

val spark = SparkSession 
     .builder() 
     .appName("Spark SQL JSON example") 
     .getOrCreate() 

     val df = spark.read.json("input/file/path") 

     df.write.json("output/file/path")

来源

2016-09-30 08:52:29 Shankar

如何使用Scala读取子目录下的多个Json文件

回答

相关问题