1
我在某处遇到了下面的代码。Spark中支持的各种文件/数据格式
sqlContext.read.format("com.databricks.spark.csv")
貌似com.databricks.spark.csv
是Databricks支持的文件格式。 我想知道本机支持的所有文件/数据格式Apache-Spark(2.0.0之前)
我在某处遇到了下面的代码。Spark中支持的各种文件/数据格式
sqlContext.read.format("com.databricks.spark.csv")
貌似com.databricks.spark.csv
是Databricks支持的文件格式。 我想知道本机支持的所有文件/数据格式Apache-Spark(2.0.0之前)
Spark支持Hadoop eco系统支持的所有格式。 下面的格式适用于spark。
1.textfile
2.sequencefile
3.json
4.avro(轻量且快速序列化/反序列化)
5.parquet(列取向,并给出更好的压缩比例)
请参阅:http://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources – mtoto