目前我正在为我的实习制定一个解决方案,每天处理100,000条记录约10栏。我必须保存每条记录,15天后我们有大约1.500.000.000条记录。对于Hadoop:哪些数据存储?
情况: 所以,我每天收到约100.000.000(也许几百万以上)的记录,这些记录我必须做一些计算/分析。为此,我正在考虑将Hadoop用于MapReduce和分布式计算。使用MapReduce模式,我可以创建每组100.000记录,并将它们分布到集群中,以执行一些分布式分析/计算。
我不知道这是否是一个好的解决方案,但如果您有其他东西,我可以想想,请告诉我。除此之外,我还必须存储所有这些记录并每月使用它们来改进我每天所做计算的算法。什么商店最适合这种情况?我正在考虑HBase或CouchDB,因为我认为它们很适合我的要求。
嗨Yosr,你说得对Hadoop,它不是一个数据库。我现在已经解决了我的问题。谢谢你的回答。我会做更多的调查。如果我决定使用哪种解决方案,我一定会告诉你。谢谢:) – Sander 2015-02-11 14:34:48
欢迎您,如果您想了解更多有关Hadoop的信息,您应该先阅读'Hadoop权威指南第三版' – 2015-02-11 14:37:16
感谢您的提示,我会这样做。 :) – Sander 2015-02-11 14:42:33