我必须通过Sqoop从MySQL表(具有复合主键)将4亿多行导入PARTITIONED Hive表Hive。该表具有两年的数据,列出发日期范围从20120605到20140605,以及一天的成千上万条记录。我需要根据出发日期对数据进行分区。使用Sqoop从MySQL导入到Hive
版本:
的Apache Hadoop的 - 1.0.4
的Apache蜂巢 - 0.9.0
的Apache Sqoop - sqoop-1.4.2.bin__hadoop-1.0.0
由于根据我的知识,有3种方法:
- MySQL - >非分区Hive表 - >从非par titioned蜂巢表到分区蜂巢表
- 的MySQL - >分区蜂巢表
的MySQL - >非分区蜂巢表 - > ALTER非分区蜂巢表中添加PARTITION
是电流那我下面
痛苦的,我读了这个支持加在后面的(?)蜂房和Sqoop的版本,但无法找到一个例子
的语法规定指定分区的键值对 - 数以百万计的记录,人们不能认为所有的分区键值对 3.
能任何人的情况下不可行为方法2和方法3提供输入?
截至sqoop 1.4.3你被困在#1中。我不认为#2或#3是可能的。你可以写一个MR作业,直接使用sqoop metastore来实现#3,但它不会很漂亮。 –