2015-03-19 34 views
0

当我(假设1TB)导入我的数据从Oracle到通过SQOOP我HDFS,怎么会被存储在文件中的数据。 甲骨文已经结构化的数据,该数据将如何在HDFS?喜欢将它非规范化,并就像一个简单的文本文件还是什么? 它像映射器将其转换以键值pairs.Now假设我有找人的年龄大于20的搜索条件,我们如何去写一个地图降低该程序。?搜索通过地图数据,从而减少编程

回答

0

在Hadoop中有ship.If你必须以标准化形式的数据,然后sqoop单个表到HDFS,并把所有这些到一个文件夹,例如说“原始”没有表关系的概念。 然后检查你需要查询,然后通过使用“蜂巢或猪”,然后让这些表是在HDFS的另一个文件夹加入他们的表说:“denormed”。 那么建立在这些数据蜂巢表,然后对它们进行查询。

HDFS可以按照原样存储数据,但是您可以通过在sqooping或构建配置单元表时指定格式来改变格式,通常不优选文本,而是将其转换为二进制格式,如“avro”,“拼花地板“等 欲了解更多参考检查此链接 http://www.cloudera.com/content/cloudera/en/documentation/cdh4/v4-3-2/CDH4-Installation-Guide/cdh4ig_topic_26_8.html 谢谢