配置单元分布式查询加入数据从on-primise hadoop群集和亚马逊s3 hadoop群集

2014-09-10 46 views 1 likes

我有一定数量的on-primise hadoop群集（在我的本地网络），我有一定数量的数据在亚马逊云S3中hadoop簇。在这两个地方我的数据驻留在配置单元表中。配置单元分布式查询加入数据从on-primise hadoop群集和亚马逊s3 hadoop群集

我想从本地hadoop集群中发出配置单元查询，此查询应该加入本地集群配置单元表中的数据和来自amazon s3 hadoop集群的配置单元表数据。它应该加入这两个地方的数据，并将结果

添加到我的本地群集env中，因为我正在从本地配置单元shell启动查询。

Amazon Data Pipeline是否可以处理此问题？如果是，请引导我。

谢谢，-Suyodha

回答

没有自动解决方案。

首先，您必须从您的本地群集导出数据并将其传输到AWS上的S3。然后您可以将此数据加载到EMR群集中。

您可以使用数据管道对传输到S3的数据集执行Hive活动。

数据管道帮助提供S3复制，EMR群集设置和Hive活动执行的开箱即用活动。他们无法帮助您将数据从内部部署传输到AWS。如果你必须自动化，你需要编写代码一些脚本等。

2014-09-14 21:17:29 user1452132

这是Attunity CloudBean的可能。我正在寻找。我会尽快回复你。非常感谢您的关注。 – 2016-08-01 02:43:52