2014-02-18 56 views
-9

目前我正在做商业智能和大数据领域的一个项目,在这两个领域里我都很诚实,我很新,很绿。商业智能中的星火

我打算使用MongoDB构建一个Hive Datawarehouse,并将它与Pentaho等商业智能平台连接起来。在研究过程中,我遇到了Spark,并对它的Shark模块感兴趣,因为它具有内存中的功能,并在查询时提高了性能。

我知道我可以将Hive连接到Pentaho,但是我想知道的是如果我可以在它们之间使用Shark查询来获得性能?如果没有,是否有人知道任何其他的商业智能平台,将允许?

正如我所说我在这方面很新颖,所以请随时纠正我,因为我有一些很可能混淆了一些概念,并说了一些愚蠢的东西。

回答

0

我认为你应该使用MongoDB使用Hive或MongoDB Datawarehouse来构建Hive Datawarehouse。我不明白你将如何混合他们,但我会尽力回答这个问题。

通常,您可以为BI工具配置一个用于您选择的DB的JDBC驱动程序(例如Hive),BI工具使用该JDBC驱动程序获取数据。驱动程序如何从数据库中提取数据对BI工具而言是完全透明的。

因此,您可以使用Hive,Shark或JDBC驱动程序附带的任何其他数据库。

我可以总结一下你的选择是这样的:

蜂巢:最完整的功能集,并且是最兼容的工具。可以在普通数据上使用,或者,您可以将数据ETL转换为其ORC格式提升性能。

Impala:声称比Hive更快,但功能较少。可以用于普通数据,或者,您可以将数据ETL数据转换为Parquet格式,从而提高性能。

鲨鱼:尖端,不是主流。性能取决于您的数据的哪个百分比可以适合群集中的RAM。

+0

是的,这似乎是我想知道的。通过Hive和Mongodb,我了解到Hive只是一个用于在hadoop上构建的查询的Datawarehousing软件,而且数据本身将在Mongodb上。就像本文提到的一样http://www.mongodb.com/press/integration-hadoop-and-mongodb-big-data%E2%80%99s-two-most-popular-technologies-gets-significant – user3323032

0

首先,鲨鱼正在被Spark SQL吸收。 SparkSQL提供了一个JDBC/ODBC连接器。这应该允许您将它与大多数现有平台集成。