2015-12-23 54 views
0

我是Hadoop的新手,因此如果我的问题太不成熟,我很抱歉。我们如何处理来自Hadoop DB的处理数据(输出)?

我知道Hadoop用于分析大数据集上的数据。 最后,我们如何处理分析的数据,我们创建报告和演示文稿?

例如对于 如果在SSRS报告的情况下,报告将基于使用SQL查询从RDBMS中提取的结果数据生成。

但是,基于Hadoop的数据库如何工作?从客户端请求特定报告,这需要Hadoop数据库中的数据点,然后流程如何? 我相信客户端不会直接在hadoop上运行Job来为其报告生成提取所需的数据,因为hadoop作业需要更多时间来处理。

我的问题是,通过运行处理的数据(结果集)是否被存储在任何中间体DB上的hadoop DB MR作业,像RDBMS? ,以便客户端可以提取生成报告所需的数据?

请在此澄清我。

回答

1

Hadoop的有2个主要部件

  • 分布式存储(HDFS)
  • 分布式计算(地图缩小)

的Hadoop应与HDFS被可视更多作为分布式操作系统作为分布式存储和映射减少为内核。有很多工具可以利用这些分布式功能,例如Hive,Pig,Sqoop,Impala,Datameer,Spark等。

一旦运行重物数据处理,如ETL,您可以加载数据传回轻型关系型数据库,并连接企业BI工具,SSRS报告目的。像Tableau这样的商业智能工具也通过Spark连接到Hadoop,我们可以直接使用它来报告Hadoop。 Datameer是基于Hadoop的可视化工具,可用于报告数据。

总之,不应该将SSRS和Hadoop等工具进行比较。 Hadoop是无缝提供分布式功能的技术,它周围的生态系统可以用来解决利用它的业务问题。