2017-08-09 134 views
1

我是新来的大数据。我了解到HDFS用于存储更多结构化数据,而HBase用于存储非结构化数据。我有一个REST API,我需要获取数据并将其加载到数据仓库(HDFS/HBase)中。数据采用JSON格式。那么哪一个会更好地加载数据? HDFS或HBase?你也可以请我指导一些教程来做到这一点。我遇到了这个约Tutorial with Streaming Data。但我不确定这是否符合我的用例。从REST API获取数据并将其存储在HDFS/HBase中

如果您能指导我使用特定的资源/技术来解决此问题,那将会非常有帮助。

回答

1

有几个问题,你要想想

  1. 你想与批处理文件或流工作?这取决于你的REST API的请求速度

  2. 对于存储来说,不仅仅有HDFS和Hbase,还有很多其他的解决方案,比如Casandra,MongoDB,Neo4j。一切都取决于你想用它(随机艾策斯 VS 全扫描更新与版本 VS 写新线并发访问)的方式。例如,Hbase适用于随机访问,Neo4j适用于图形存储,如果您正在接收JSON文件,MongoDB可以作为上帝之选,因为它将对象存储为文档。

  3. 什么是你的数据的大小

这里是问题的好文章来想想,当你开始一个大数据项目documentation

相关问题