这个查询有点像问,“我什么时候应该用扳手?” Greenplum可以用于许多不同的事情,答案也将是主观的。但是,我会尽我所能,因为你问了我的意见。
gpdb层如何影响我们现有的数据管道。这里的数据管道是外部系统 - > talend - > hadoop-hawq - >画面。我们希望将我们的数据管道转换为外部系统 - > talend - > hadoop-hawq - > greenplum - >画面。
有很多方法可以实现数据管道您首先将数据加载到Hadoop然后将其加载到Greenplum的目标非常普遍并且效果很好。您可以使用Greenplum中的外部表格直接从HDFS中并行读取数据。所以从Hadoop集群到Greenplum的数据移动可以通过一个简单的INSERT语句来实现。
INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file;
如何Greenplum的物理或逻辑将在SQL转换和报告,以帮助。
隔离一个。通过Greenplum的单独群集,您可以向客户提供分析,而不会影响Hadoop活动的性能,反之亦然。这种隔离还可以提供额外的安全层。
哪个文件格式,我应该选择的文件存储在GPDB而format.What都支持 HAWQ我们采用明文存储的文件格式有利于像Avro的,实木复合地板等
gpdb写
根据您的建议使用您的数据管道,我会根据性能决定Greenplum中的数据格式。如此大的表格,对表格进行分区,并使用quicklz压缩来实现列式定位。对于较小的表格,只需使其附加优化即可。对于有大量更新或删除的表,请将其保留为默认堆。
数据文件是如何从GPDB处理的。因此,它还能带来更快的报告和预测分析。
Greenplum是一个MPP数据库。存储是“无共享”的,意味着每个节点都具有其他节点不具有的唯一数据(不包括高可用性的镜像)。段的数据将始终位于本地磁盘上。
在HAWQ中,因为它使用HDFS,所以段的数据不一定是本地的。第1天,当你将数据写入HDFS时,它是本地的,但是在失败的节点,扩展等之后,HAWQ可能不得不从其他节点获取数据。由于Hadoop的工作原理,这使得Greenplum的性能比HAWQ更具可预测性。
有没有办法将HAWQ的数据推送到Greenplum中?我们是 正在寻找指导如何将我们的报告用例从 HAWQ INTO Greenplum转移。
推,不,但拉,是的。正如我上面提到的,您可以在Greenplum中创建一个外部表来从HDFS中选择数据。您也可以在Greenplum中创建可写外部表来将数据推送到HDFS。
感谢Jon提供的信息。它可以帮助我理解。所以,我们决定升级gpdb。 – NEO
从4.3.4.1升级到4.3.8.X。我们是否应该去追求它。或任何东西4.3.X是好的。我们需要你的建议。 – NEO
4.3.5是一个重要的升级,如果你还安装了gptext,你还需要升级扩展。确保在升级之前先用gpcrondump备份数据库。但升级到最新版本将为您带来新功能和更多稳定性,因此我始终建议您使用最新版本。 –