2016-12-19 148 views
6

我有一个带有几个压缩CSV文件(利用日志)的S3存储桶。我想用雅典娜查询这些数据,但输出完全乱码。亚马逊雅典娜和压缩的S3文件

看来雅典娜试图解析zip文件而不先解压缩它们。是否可以强制Hive将我的文件识别为压缩数据?

回答

12

对于雅典娜压缩被支撑,但是支持的格式是

  • 斯纳皮(.snappy)
  • zlib的(操作.bz2)
  • GZIP(。广州)

那些格式通过它们的文件名后缀进行检测。如果后缀不匹配,则阅读器不解码内容。 我用一个test.csv.gz文件测试了它,它马上就能正常工作。因此,请尝试将压缩文件从zip压缩文件更改为gzip,并且它应该可以正常工作

+0

谢谢Jens。我担心这可能是答案。我无法控制此存储桶中的格式,因此我需要安排一项工作,以编程方式解压缩并将其存储在别处。 – MattY