如果我有一个二进制数据文件(它可以转换为csv格式),有没有办法直接从它加载镶木地板表?许多教程显示将csv文件加载到文本表格,然后从文本表格加载到镶木地板表格。从效率的角度来看,是否可以直接从我已有的二进制文件中加载镶木地板表?理想情况下使用create external table命令。 或者我需要先将其转换为csv文件?是否有任何文件格式限制?是否可以直接从文件加载镶木地板表?
2
A
回答
2
不幸的是,无法从Impala中的自定义二进制格式中读取数据。您应该将文件转换为csv,然后在现有的csv文件上创建一个外部表作为临时表,最后将其插入从temp csv表读取的最终parquet表中。 Impala Parquet documentation有更多的信息和一些相关的例子。请参阅关于压缩小文件的部分,它们是相似的。
我不知道如何将文件格式转换为csv,但可以考虑编写一个程序将您的二进制格式转换为Parquet。例如,您可以编写一个写入Parquet文件的MapReduce作业。下面是一个读写Parquet的例子: https://github.com/cloudera/parquet-examples/blob/master/MapReduce/TestReadWriteParquet.java
+0
该链接现在已经消失,但我在这里发现类似:https://github.com/gregoryg/parquet-examples/tree/master/MapReduce – Codek 2017-07-17 09:47:42
相关问题
- 1. 从镶木地板文件创建Hive表并加载数据
- 2. Parquetloader:无法使用猪加载多个镶木地板文件
- 3. 有一个大的镶木地板文件或大量较小的镶木地板文件是更好吗?
- 4. 如何在镶木地板文件中创建日期类型列与镶木地板
- 5. 设置镶木地板活泼的输出文件大小是否配置?
- 6. 不同大小的火花相同的镶木地板文件
- 7. 在java中创建镶木地板文件
- 8. 生成镶木地板文件 - R和Python之间的差异
- 9. 找出原始镶木地板文件大小?
- 10. 如何查询制作压缩镶木地板文件?
- 11. 的镶木子文件
- 12. 是否可以直接从浏览器加载HAML视图?
- 13. 是否可以直接从文件写入套接字?
- 14. 无法从命令行获得镶木地板工具
- 15. 无法覆盖pyspark中的镶木地板配置单元表
- 16. MySql可以直接从XML加载
- 17. 如何以镶木地板格式保存数据并追加条目
- 18. 是否可以直接从浏览器保存文件到MongoDB?
- 19. 是否可以直接从S3打开文件
- 20. 从镶木地板表中选择返回蜂巢中的任何内容
- 21. 是否可以用烧瓶直接加载bootstrap模态
- 22. 如何在使用pyspark阅读镶木地板文件时指定模式?
- 23. 如何在镶木地板文件中创建嵌套的对象和数组?
- 24. 火花镶木地板转换问题与文件格式不正确行
- 25. 是否有可能从本地加载Php文件
- 26. 如何直接从文件系统加载jinja模板
- 27. 是否可以通过HTML链接从Subversion下载文件?
- 28. 直接从UI文件加载QDialog?
- 29. 直接从URL加载PNG文件
- 30. 是否可以使用clojure.java.jdbc从文件中加载SQL语句?
昨天我创建了一个外部表,使用用apache drill生成的parquet文件。 – 2016-02-12 10:35:35