2017-08-10 48 views
0

我使用Avro的文件数据存储在HDFS复制。我需要从一个avro文件复制选定的列数据并将其发送到同一个集群中具有其自己的模式文件(具有选定列信息)的另一个位置。我怎样才能做到这一点?是否可以使用Hive实现?或者HDFS中是否有任何实用工具可以帮助我做到这一点?HDFS集群内与选定列

这是必需的,因为一组必须能够访问整个表,而另一组应该能够访问只有几列。所以,我需要它们只在HDFS中的一个单独位置,只有所需的模式和avro文件。

+0

请分享您的单词详细信息 – Raghavendra

+0

_“intercluster”_表示您正在两个不同的群集之间移动数据。这里不是这种情况。请删除该单词或替换为“intracluster”(但没有用)。 –

回答

0

哪里倍数为创造这样做,我会说,最简单的是使用蜂巢或火花。在配置单元中,您可以使用阅读器模式(仅限于所需字段)创建表并将表位置指向目标目录。之后,您需要的仅仅是从源表中插入,只选择要放入阅读器表的字段。

正如一个评论,创造一个阅读器模式是一个很好的解决方案,以避免在这样的情况下,数据复制。如果没有严格要求创建数据的子集,我建议使用阅读器模式