2017-04-04 32 views
0

我需要将大量数据从RDBMS移动到Hadoop而不使用Sqoop。我有2200个表的数据库,并使用Sqoop将它们导入到hdfs是一项繁忙的工作,需要耗费大量时间并敲击数据库以选择每次影响性能。我有更多的资源从RDBMS转移到hdfs。我用hive查询hdfs中的文件。有人能以更高效的方式帮助我吗?如何将数据从RDBMS移动到没有Sqoop的hadoop?

回答

0

你可以随时用任何后端代码来实现它:从数据库读取数据并写入HDFS流。
然后在您的应用程序配置中,您可以进行任何您需要的定制(线程,超时,数据批量等)。这是相当直接的解决方案。
由于某种原因,我们已经尝试过这一次,我不记得了。但大多数情况下我们使用sqoop,在这里没有问题。
你也可以做一个数据库副本(sime类副本),除了你的sqoop作业以外,任何外部系统都不会使用它。所以用户选择不会影响性能。

相关问题