2015-09-30 62 views
0

我创建了sqoop作业从Netezza导入数据。它通过每天比较来自源的时间戳列(检查列)来导入数据。我观察到,与Netezza的源表相比,每天的工作都会导入更多的记录。Sqoop增量作业导入更多的记录数比源

似乎没有问题或工作错误。 'incremental.last.value'也适合每次运行更新。

我怎样才能找出工作中的错误。我正在使用Sqoop版本:1.4.5.2.2.6.0-2800

回答

0

您能否显示已使用的sqoop作业声明?是否使用了sqoop作业中的任何分隔列,如果是,请尝试使用其他拆分作业柱。

0

更多调查显示该工作正常工作。问题在于验证方法。我试图验证Netezza和Hive中给定日期的行数。但是,检查列的日期值在Netezza中得到更新。这些更新不会以任何方式反映在Hive上。因此,一天的记录数量在Netezza方面并不会保持不变。

该问题已经给出了一个很好的学习,首先检查所考虑的场景的所有条件。实现输出可能有很多因素,而不仅仅是编写代码的正确性。