我正在使用火花,并且在hdfs(zip,gzip,7zip,tar,bz2,tar.gz等)上有不同类型的压缩文件。任何人都可以让我知道解压缩的最佳途径。对于某些压缩,我可以使用CompressionCodec。但它不支持所有压缩格式。对于zip文件,我做了一些搜索,发现可以使用ZipFileInputFormat。但我找不到任何罐子。从火花的hdfs解压缩文件
0
A
回答
0
对于某些压缩格式(我知道它对于tar.gz和zip是真的,还没有为其他测试做过测试),您可以直接使用dataframe API,它会为您处理压缩:
val df = spark.read.json("compressed-json.tar.gz")
+0
Hi @Ben以上适用于tar文件,但不适用于zip文件。我使用Spark 1.6和Scala 2.10.2 –
相关问题
- 1. 内部HDFS文件压缩
- 2. 星火单机模式:如何压缩火花输出写入HDFS
- 3. 得到火花hdfs文件路径
- 4. 读数压缩文件中的火花与斯卡拉
- 5. 解压缩(解压缩)由.net压缩(解压缩)的文件.net system.io.compression.gzipstream
- 6. 火花:加扰RDDS和压缩它们
- 7. 压缩解压缩的exe文件
- 8. png文件的压缩和解压缩
- 9. 压缩文件为'hadoop hdfs -get'
- 10. 在HDFS上合并压缩文件
- 11. 如何用Snappy压缩文件到HDFS
- 12. Hadoop:在HDFS中压缩文件?
- 13. 压缩文件未解压
- 14. 错误而来自本地的Linux文件解压缩到HDFS
- 15. 火花:如何从火花外壳运行火花文件
- 16. 解压缩文件
- 17. 解压缩文件
- 18. 从kafka到hdfs通过火花
- 19. 火花独立无hdfs
- 20. 火花上保存和HDFS
- 21. Node.js - 压缩/解压缩文件夹
- 22. Magick ++压缩和解压缩文件
- 23. 在yii中压缩/解压缩文件
- 24. 压缩和解压缩文件夹
- 25. 使用ZipFile类从多个文件的zip压缩文件解压缩文件
- 26. 解压缩文件并读取解压缩文件
- 27. 解压缩从网络中的文件
- 28. 解压缩文件夹并从解压缩文件中获取图像
- 29. 如何解压/解压缩* .z文件
- 30. 如何解压/解压缩文件
您可以在java中编写自己的输入格式和记录读取器,并导入到scala中。 https://gist.github.com/jteso/1868049 –
[zip,7zip,tar是*档案*,不一定是“压缩”](http://superuser.com/questions/173756/which-is-more-与BZip2和Gzip(gz和gzip是相同的... tar.gz是压缩的tar归档文件)之间的高效tar或zip压缩是什么)。无论如何,BZip2是HDFS中的最佳选择http://comphadoop.weebly.com/index.html –