我正在创建一个调查引擎,它将存储数百万个对各种大型调查的响应。Hadoop会帮助我的情况吗?
有各种机构将有10-100个用户。每个人将能够管理3000+问题调查。也会有多个机构。
如果每个机构都有数以千计的会话,每个会话有3000多个响应,我认为hadoop会是一个很好的候选人,可以让会话及其响应数据运行各种分析(聚合等)。
会话,调查问题和回复都保存在sql数据库中。我在想,我会保持并保持并行的数据。所以当一个机构下一个新的会话时,它会被添加到hadoop'文件'中,这样当整个数据集被调用时,它将被包括在内。
这个实现和hadoop一起工作还是很好,还是我还在关系数据库的范围之内?