2016-09-22 33 views

回答

1

在具有类似结构,以CSV二进制格式序列文件

序列文件存储数据。与CSV一样,序列文件也不会将数据与数据一起存储,因此唯一的模式演变选项会附加新字段。但是,与CSV不同,序列文件确实支持块压缩。由于阅读序列文件的复杂性,它们通常仅用于“空中”数据,例如在一系列MapReduce作业中使用的中间数据存储。

平面文件

平面文件尚未源自Hadoop的创作者道格切割的Trevni项目的另一个柱状文件格式。像RC和ORC一样,Parquet享受压缩和查询性能的好处,写入速度通常比非列式文件格式慢。然而,与RC和ORC文件不同,Parquet serdes支持有限的模式演变。在实木复合地板中,可以在结构的最后添加新的列。目前,Hive和Impala能够查询新添加的列,但生态系统中的其他工具(如Hadoop Pig)可能面临挑战。实木复合地板由Cloudera支持并为Cloudera Impala进行了优化。原生Parquet支持正在为Hadoop生态系统的其他部分快速添加。

关于Parquet文件支持与Hive的一个注意事项... parquet列名称是小写字母非常重要。如果您的Parquet文件包含混合大小写的列名称,则Hive将无法读取列,并将使用空值在列上返回查询,并且不会记录任何错误。与Hive不同,Impala处理混合大小写的列名称。一个真正令人困惑的问题,当你遇到我

相关问题