2017-02-26 39 views
0

当我尝试从talend etl服务器运行gpload进程。在那,我需要首先配置tgreenpluGPload组件。配置到组件时,它正在寻找远程Greenplum服务器文件,而不是基于本地窗口的talend ETL文件。关键greenplum -gpload与talend问题

ENV详细

了Talend服务器是基于 - Windows Server 2012中

基于

Greenplum的集群 - CentOS的7

主因: Greenplum的数据库服务器(Linux)的是远程到ETL传送服务器(窗口)。因此,当我从窗口服务器运行作业时,greenplum db server对它来说是远程的。此外,我无法配置组件tgreenplumGPload。

截图tgreenplumGPload设置:

Basic setting

Advanced setting

更多详情: 1)gpfdist程序是在主控Greenplum的主机上运行。

[[email protected] ~]$ ps -A | grep gpfdist 
20071 pts/0 00:00:00 gpfdist 
[[email protected] ~]$ 

2)从gpdb命令行检查合并操作 - 以下过程在greenplum服务器中运行。

[[email protected] ~]$ gpload -f gpload.yml 
2017-02-25 20:20:48|INFO|gpload session started 2017-02-25 20:20:48 
2017-02-25 20:20:48|INFO|started gpfdist -p 8081 -P 8082 -f "/home/gpadmin/demo/gp_RevenueReport_stg0.txt" -t 30 
2017-02-25 20:20:48|INFO|running time: 0.20 seconds 
2017-02-25 20:20:48|INFO|rows Inserted   = 0 
2017-02-25 20:20:48|INFO|rows Updated   = 3 
2017-02-25 20:20:48|INFO|data formatting errors = 0 
2017-02-25 20:20:48|INFO|gpload succeeded 

Q1: 如何设置共享文件夹在Linux上的Windows以access.so的是,我们可以在tgreenplumGPload设置使用。或者有没有其他方法可以做到这一点。

任何帮助将不胜感激!

回答

1

gpfdist将在ETL服务器上运行,而不是在主控主机上运行。

您必须将ETL服务器ip和名称添加到Greenplum群集中所有节点上的/ etc/hosts文件中。然后,您需要确保ETL服务器可以直接与Greenplum专用网络中的网段主机进行通信。这需要将Greenplum使用的10GB专用交换机连接到10GB LAN并创建一个VLAN,以便您可以访问这些节点,或者您可以从ETL服务器运行10GB电缆以打开10GB交换机的端口并为其分配IP地址与现有主机不冲突。

+0

谢谢你jon。我了解/ etc/hosts文件条目是为了网络的目的。你能否用通俗的话来说说创建VLAN/10gb局域网等等,如果我在它上面得到参考文档,那将会很棒。 – NEO

+0

Greenplum的推荐安装是使用专用网络在集群中的节点之间进行通信。只有主控主机有一个额外的连接到您的局域网。您需要将ETL服务器连接到Greenplum群集使用的专用网络。这可能也有帮助:http://gpdb.docs.pivotal.io/43110/concepts-etl.html –

+0

非常感谢Jon。我想通读这篇文档。然后在Test ETL服务器上进行活动。最后,回到你的活动结果。 – NEO