我们如何处理来自Hadoop DB的处理数据（输出）？

我是Hadoop的新手，因此如果我的问题太不成熟，我很抱歉。我们如何处理来自Hadoop DB的处理数据（输出）？

我知道Hadoop用于分析大数据集上的数据。最后，我们如何处理分析的数据，我们创建报告和演示文稿？

例如对于如果在SSRS报告的情况下，报告将基于使用SQL查询从RDBMS中提取的结果数据生成。

但是，基于Hadoop的数据库如何工作？从客户端请求特定报告，这需要Hadoop数据库中的数据点，然后流程如何？我相信客户端不会直接在hadoop上运行Job来为其报告生成提取所需的数据，因为hadoop作业需要更多时间来处理。

我的问题是，通过运行处理的数据（结果集）是否被存储在任何中间体DB上的hadoop DB MR作业，像RDBMS？，以便客户端可以提取生成报告所需的数据？

请在此澄清我。

2015-12-23 Matt

Hadoop的有2个主要部件

的Hadoop应与HDFS被可视更多作为分布式操作系统作为分布式存储和映射减少为内核。有很多工具可以利用这些分布式功能，例如Hive，Pig，Sqoop，Impala，Datameer，Spark等。

一旦运行重物数据处理，如ETL，您可以加载数据传回轻型关系型数据库，并连接企业BI工具，SSRS报告目的。像Tableau这样的商业智能工具也通过Spark连接到Hadoop，我们可以直接使用它来报告Hadoop。 Datameer是基于Hadoop的可视化工具，可用于报告数据。

总之，不应该将SSRS和Hadoop等工具进行比较。 Hadoop是无缝提供分布式功能的技术，它周围的生态系统可以用来解决利用它的业务问题。

2015-12-23 01:32:29

回答