2016-05-17 34 views
2

我们有用于零售行业数据的用例。我们正在制作EDW。什么时候应该使用Greenplum数据库与HAWQ?

我们正在从HAWQ进行报告。但是我们希望将我们的MPP数据库从Hawq转移到Greenplum。基本上,我们想对当前的数据管道进行更改。

我们对gpdb困惑点:

  • 如何gpdb层会影响到我们现有的数据管道。这里的数据 管道是外部系统 - > talend - > hadoop-hawq - >画面。我们 想要将我们的数据管道转换为外部系统 - > talend - > hadoop-hawq - > greenplum - >画面。
  • Greenplum如何在物理或逻辑上帮助SQL 转换和报告。

  • 哪个文件格式,我应该选择的文件存储在GPDB而format.What都支持
    HAWQ我们采用明文存储的文件格式有利于像Avro的,实木复合地板等

  • gpdb写
  • 数据文件是如何从GPDB处理的。所以,它也带来了更快的报告和预测分析。

  • 有没有办法将HAWQ中的数据推送到Greenplum中?我们是
    寻找指导如何将我们的报告用例从
    HAWQ INTO Greenplum转移。

对此的任何帮助将不胜感激?

回答

3

这个查询有点像问,“我什么时候应该用扳手?” Greenplum可以用于许多不同的事情,答案也将是主观的。但是,我会尽我所能,因为你问了我的意见。

gpdb层如何影响我们现有的数据管道。这里的数据管道是外部系统 - > talend - > hadoop-hawq - >画面。我们希望将我们的数据管道转换为外部系统 - > talend - > hadoop-hawq - > greenplum - >画面。

有很多方法可以实现数据管道您首先将数据加载到Hadoop然后将其加载到Greenplum的目标非常普遍并且效果很好。您可以使用Greenplum中的外部表格直接从HDFS中并行读取数据。所以从Hadoop集群到Greenplum的数据移动可以通过一个简单的INSERT语句来实现。

INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file; 

如何Greenplum的物理或逻辑将在SQL转换和报告,以帮助。

隔离一个。通过Greenplum的单独群集,您可以向客户提供分析,而不会影响Hadoop活动的性能,反之亦然。这种隔离还可以提供额外的安全层。

哪个文件格式,我应该选择的文件存储在GPDB而format.What都支持 HAWQ我们采用明文存储的文件格式有利于像Avro的,实木复合地板等

gpdb写

根据您的建议使用您的数据管道,我会根据性能决定Greenplum中的数据格式。如此大的表格,对表格进行分区,并使用quicklz压缩来实现列式定位。对于较小的表格,只需使其附加优化即可。对于有大量更新或删除的表,请将其保留为默认堆。

数据文件是如何从GPDB处理的。因此,它还能带来更快的报告和预测分析。

Greenplum是一个MPP数据库。存储是“无共享”的,意味着每个节点都具有其他节点不具有的唯一数据(不包括高可用性的镜像)。段的数据将始终位于本地磁盘上。

在HAWQ中,因为它使用HDFS,所以段的数据不一定是本地的。第1天,当你将数据写入HDFS时,它是本地的,但是在失败的节点,扩展等之后,HAWQ可能不得不从其他节点获取数据。由于Hadoop的工作原理,这使得Greenplum的性能比HAWQ更具可预测性。

有没有办法将HAWQ的数据推送到Greenplum中?我们是 正在寻找指导如何将我们的报告用例从 HAWQ INTO Greenplum转移。

推,不,但拉,是的。正如我上面提到的,您可以在Greenplum中创建一个外部表来从HDFS中选择数据。您也可以在Greenplum中创建可写外部表来将数据推送到HDFS。

+0

感谢Jon提供的信息。它可以帮助我理解。所以,我们决定升级gpdb。 – NEO

+0

从4.3.4.1升级到4.3.8.X。我们是否应该去追求它。或任何东西4.3.X是好的。我们需要你的建议。 – NEO

+0

4.3.5是一个重要的升级,如果你还安装了gptext,你还需要升级扩展。确保在升级之前先用gpcrondump备份数据库。但升级到最新版本将为您带来新功能和更多稳定性,因此我始终建议您使用最新版本。 –

相关问题