2013-10-14 27 views
0

我正在创建一个调查引擎,它将存储数百万个对各种大型调查的响应。Hadoop会帮助我的情况吗?

有各种机构将有10-100个用户。每个人将能够管理3000+问题调查。也会有多个机构。

如果每个机构都有数以千计的会话,每个会话有3000多个响应,我认为hadoop会是一个很好的候选人,可以让会话及其响应数据运行各种分析(聚合等)。

会话,调查问题和回复都保存在sql数据库中。我在想,我会保持并保持并行的数据。所以当一个机构下一个新的会话时,它会被添加到hadoop'文件'中,这样当整个数据集被调用时,它将被包括在内。

这个实现和hadoop一起工作还是很好,还是我还在关系数据库的范围之内?

回答

1

我不认为任何人都能够在这里明确地告诉你,是或否。我也不认为我完全理解你的程序将从问题的措辞上做什么,但是,一般来说,Hadoop Map/Reduce擅长批量处理大量数据。它并不意味着是一个交互式(即实时)工具。因此,如果您的系统:

1)将运行计划任务来分析调查结果,生成趋势,汇总数据等.....然后是,M/R将非常适合这一点。

2)将允许用户通过指定他们感兴趣的内容来搜索调查并根据他们的输入实时获得报告....然后不,M/R可能不是这个最好的工具。你可能想看看HBase。我还没有使用它,但Hive是一个基于查询的工具,但我不知道如何“实时”,可以得到。此外,Drill是一个即将推出的项目,它看起来很有前途,可以交互式查询大数据。

相关问题