2016-04-30 45 views
4

这可能是一个非常简单的问题。但有没有简单的方法来测量火花作业的执行时间(使用​​提交)?Spark工作执行时间

这将帮助我们根据输入数据的大小来分析火花作业。

编辑:我使用http://[driver]:4040来监视我的工作,但是这个Web UI在我的工作完成的时候关闭。

回答

6

每SparkContext在

http://[master]:4040
默认情况下推出自己的Web UI的实例,它是可用的(该端口可以使用spark.ui.port改变)。

,提供页面(选项卡)包含以下信息:

乔布斯阶段,存储(用RDD大小和内存使用) 环境,执行人,SQL

本信息只提供直到该应用程序默认运行。

提示:您可以通过启用spark.eventLog.enabled完成应用程序后使用Web UI。

简单的Web界面,你可以看到时间3.2小时: enter image description here

+0

谢谢,我打算询问有关在工作结束后保留​​信息的问题,但无论如何你已经回答了。 'spark.eventLog.enabled'是提交spark工作时在命令行上指定的配置参数,是否正确? – pranav3688

+0

是的,你是对的。例如:./bin/spark-submit --name“我的应用程序”--master local [4] --conf spark.eventLog.enabled = false --conf“spark.executor.extraJavaOptions = -XX:+ PrintGCDetails -XX:+ PrintGCTimeStamps“myApp.jar –

1

SPARK本身提供了关于Spark Job每个阶段的详细信息。转到http://your-driver-node:4040上Spark的Web界面,您也可以使用历史记录服务器。

如果您只需要执行时间,那么请转至“http://your-driver-node:8080”,您可以看到提交给spark的作业的执行时间。

+0

您可以检查以下网址: - http://spark.apache.org/docs/latest/monitoring.html – mpals

+0

我用的是'http:// your-driver-node:4040'来总是监视我的工作,但是它并没有给我端到端的执行时间,是吗?如果是,那么......我会检查第二个链接!谢谢! – pranav3688