这可能是一个非常简单的问题。但有没有简单的方法来测量火花作业的执行时间(使用提交)?Spark工作执行时间
这将帮助我们根据输入数据的大小来分析火花作业。
编辑:我使用http://[driver]:4040
来监视我的工作,但是这个Web UI在我的工作完成的时候关闭。
这可能是一个非常简单的问题。但有没有简单的方法来测量火花作业的执行时间(使用提交)?Spark工作执行时间
这将帮助我们根据输入数据的大小来分析火花作业。
编辑:我使用http://[driver]:4040
来监视我的工作,但是这个Web UI在我的工作完成的时候关闭。
每SparkContext在
http://[master]:4040
默认情况下推出自己的Web UI的实例,它是可用的(该端口可以使用spark.ui.port
改变)。
,提供页面(选项卡)包含以下信息:
乔布斯阶段,存储(用RDD大小和内存使用) 环境,执行人,SQL
本信息只提供直到该应用程序默认运行。
提示:您可以通过启用spark.eventLog.enabled
完成应用程序后使用Web UI。
SPARK本身提供了关于Spark Job每个阶段的详细信息。转到http://your-driver-node:4040上Spark的Web界面,您也可以使用历史记录服务器。
如果您只需要执行时间,那么请转至“http://your-driver-node:8080”,您可以看到提交给spark的作业的执行时间。
您可以检查以下网址: - http://spark.apache.org/docs/latest/monitoring.html – mpals
我用的是'http:// your-driver-node:4040'来总是监视我的工作,但是它并没有给我端到端的执行时间,是吗?如果是,那么......我会检查第二个链接!谢谢! – pranav3688
谢谢,我打算询问有关在工作结束后保留信息的问题,但无论如何你已经回答了。 'spark.eventLog.enabled'是提交spark工作时在命令行上指定的配置参数,是否正确? – pranav3688
是的,你是对的。例如:./bin/spark-submit --name“我的应用程序”--master local [4] --conf spark.eventLog.enabled = false --conf“spark.executor.extraJavaOptions = -XX:+ PrintGCDetails -XX:+ PrintGCTimeStamps“myApp.jar –