我应该使用什么端口访问Google Dataproc上的Spark UI?Google Dataproc上的Spark UI在哪里?
我试图端口4040和7077,以及使用netstat -pln
防火墙配置正确一堆其他端口我找到。
我应该使用什么端口访问Google Dataproc上的Spark UI?Google Dataproc上的Spark UI在哪里?
我试图端口4040和7077,以及使用netstat -pln
防火墙配置正确一堆其他端口我找到。
Dataproc在YARN上运行Spark,因此您不会找到典型的“Spark独立”端口;相反,当运行Spark作业时,您可以访问端口8088
,它将向您显示YARN ResourceManager的主页面。任何正在运行的Spark作业都可通过该页面上的Application Master
链接进行访问。 Spark Application Master的页面看起来与熟悉的Spark独立登录页面相同,您通常可以在端口8080上找到默认的Spark设置。
由于工作人员通过内部网络进行检查,YARN的链接将使用集群内部主机名(主机名应包含Dataproc集群名称作为前缀),但这意味着如果您从外部网络访问,链接起初可能不起作用;如果您使用基于防火墙的方法,则必须使用外部IP地址替换主机名。
更简单的体验将是使用SOCKS代理方法,因为这里说明:https://cloud.google.com/dataproc/cluster-web-interfaces
在这种情况下,简单地使用gcloud compute ssh
运行轻量级的本地SOCKS代理,然后打开浏览器指着,让你点击所有的YARN链接都是正常的。
当following the instructions in Dennis's answer,我发现我无法连接到端口8080或8088 dataproc图像v1.0。
主节点上的开放端口建议使用18080,我对端口18080和voil进行了以下操作:访问webui。
已完成作业的Spark UI也将在作业条目的“历史记录”链接下提供。 – cerisier