2014-09-10 46 views
1

我有一定数量的on-primise hadoop群集(在我的本地网络),我有一定数量的数据在亚马逊云S3中hadoop簇。在这两个地方我的数据驻留在配置单元表中。配置单元分布式查询加入数据从on-primise hadoop群集和亚马逊s3 hadoop群集

我想从本地hadoop集群中发出配置单元查询,此查询应该加入本地集群配置单元表中的数据和来自amazon s3 hadoop集群的配置单元表数据。它应该加入这两个地方的数据,并将结果

添加到我的本地群集env中,因为我正在从本地配置单元shell启动查询。

Amazon Data Pipeline是否可以处理此问题?如果是,请引导我。

谢谢,-Suyodha

回答

1

没有自动解决方案。

首先,您必须从您的本地群集导出数据并将其传输到AWS上的S3。然后您可以将此数据加载到EMR群集中。

您可以使用数据管道对传输到S3的数据集执行Hive活动。

数据管道帮助提供S3复制,EMR群集设置和Hive活动执行的开箱即用活动。他们无法帮助您将数据从内部部署传输到AWS。如果你必须自动化,你需要编写代码一些脚本等。

+0

这是Attunity CloudBean的可能。我正在寻找。我会尽快回复你。非常感谢您的关注。 – 2016-08-01 02:43:52