2015-12-12 67 views
0

我们需要增量运行HiveQL并将结果导出到avro fromat中的文件,并且我们需要导出记录。导出配置单元数据增量

以下是我看到的两种方式以及我在使用它们时看到的挑战。

选项1:使用猪和客户装载机: a。编写运行配置单元查询incemental的自定义pig loader。 b。编写一个pig flow并创建一个与配置单元加载器结果的关系。 c。将结果保存在avro文件中。

选项2. SQOOP导出 - 我无法找到为什么以增量方式导出配置单元查询结果。

到目前为止,我认为使用选项1会更好地满足我的要求。

有人能解释一下,如果你认为我们可以在sqoop中轻松达到这个目的吗?

回答

0

Sqoop可以将数据从HDFS目录导出到目标数据库,而不是文件。在这种情况下sqoop不能

  1. 读增量的结果,除非你有独立的蜂巢表或分区(这会导致新目录)
  2. 写成的Avro格式的外部文件。
+0

谢谢!你有没有看到其他方法来达到我的要求? – user2545449

相关问题