2015-10-13 59 views

回答

0

distcp是将大量数据从一个hadoop群集移到另一个群集的有效方法。

Sqoop和Flume不能用于将数据从一个hadoop群集传输到另一个群集。 Sqoop主要用于在hadoop和关系数据库之间移动数据,而Flume则用于将流数据提取到Hadoop。

你的另一种选择是使用:像卡夫卡

  1. 高通量味精队列中,但是这会成为比使用DistCp使用更复杂。
  2. 使用传统hadoop fscpget shell命令之后put

仅供参考,当你在谈论蜂房数据,你也应该考虑保持在同步集群之间蜂巢元数据(metastore)。

+0

感谢您的回复和建议Ashrith, 我在想,我可以这样做: sqoop进口--connect的jdbc:hive2://am1dlccmrhdn04.r1-core.r1.aig.net:10000/test_vk --driver org.apache.hive.jdbc.HiveDriver --username codspug --table sqooptest -m 1 --hive-import --target-dir/tmp/TESTVK/ 从开始起,它给出错误,如方法不支持的。 我们可以用Map Reduce program.or或其他任何方式来实现它吗? 请帮助,因为你建议我们可以使用卡夫卡,但在这里不能使用卡夫卡。 请帮我一下吗? –

相关问题