2015-02-11 47 views
0

目前我正在为我的实习制定一个解决方案,每天处理100,000条记录约10栏。我必须保存每条记录,15天后我们有大约1.500.000.000条记录。对于Hadoop:哪些数据存储?

情况: 所以,我每天收到约100.000.000(也许几百万以上)的记录,这些记录我必须做一些计算/分析。为此,我正在考虑将Hadoop用于MapReduce和分布式计算。使用MapReduce模式,我可以创建每组100.000记录,并将它们分布到集群中,以执行一些分布式分析/计算。

我不知道这是否是一个好的解决方案,但如果您有其他东西,我可以想想,请告诉我。除此之外,我还必须存储所有这些记录并每月使用它们来改进我每天所做计算的算法。什么商店最适合这种情况?我正在考虑HBase或CouchDB,因为我认为它们很适合我的要求。

回答

0

实际上,Hadoop并不是一个数据库。Hadoop是一个框架,它支持在商品服务器集群中分布式处理大型数据集。 它旨在从单个服务器扩展到数千台机器,具有非常高的容错度。 Hadoop以MapReduce及其分布式文件系统(HDFS)而闻名于世。Hbase是一个分布式的,面向列的数据库。 Hbase使用HDFS作为其底层存储,并支持使用MapReduce和点查询的批处理式计算。

Hive是一个分布式数据仓库。 Hive管理存储在HDFS中的数据,并提供基于SQL(并由运行时引擎翻译为MapReduce作业)的查询语言,以便对数据进行排队。

**你可以做的是:用蜂巢的分析

integrate两者,并且可以使用蜂巢查询(基于SQL)在HBase的存储使用Hbase存储

+0

嗨Yosr,你说得对Hadoop,它不是一个数据库。我现在已经解决了我的问题。谢谢你的回答。我会做更多的调查。如果我决定使用哪种解决方案,我一定会告诉你。谢谢:) – Sander 2015-02-11 14:34:48

+0

欢迎您,如果您想了解更多有关Hadoop的信息,您应该先阅读'Hadoop权威指南第三版' – 2015-02-11 14:37:16

+0

感谢您的提示,我会这样做。 :) – Sander 2015-02-11 14:42:33

相关问题