2016-07-05 68 views
3

我想在调试我的Spark笔记本时获得更多信息。我已经发现了一些日志文件:需要Apache Spark的Bluemix Analytics日志文件信息

!ls $HOME/notebook/logs/ 

的文件有:

bootstrap-nnnnnnnn_nnnnnn.log 
jupyter-nnnnnnnn_nnnnnn.log 
kernel-pyspark-nnnnnnnn_nnnnnn.log 
kernel-scala-nnnnnnnn_nnnnnn.log 
logs-nnnnnnnn.tgz 
monitor-nnnnnnnn_nnnnnn.log 
spark160master-ego.log 

哪些应用程序登录到这些文件,哪些信息被写入其中的每个文件?

回答

3

在调试笔记本时,kernel-*-*.log文件是您正在查找的文件。

在逻辑顺序

  1. bootstrap-*.log服务启动时被写入。每次启动一个文件,时间戳指示发生的时间。包含启动脚本的输出,用于初始化用户环境,创建内核规格,准备Spark配置等。

  2. bootstrap-*_allday.log有当天每个服务启动和停止的记录。

  3. jupyter-*.log包含Jupyter服务器的输出。从bootstrap-*.log完成初始化后,启动Jupyter服务器。这就是当这个文件被创建。笔记本内核启动或停止时以及笔记本保存时,您会看到日志条目。

  4. monitor-*.log包含从服务启动的监视脚本的输出。监视脚本必须检测Jupyter服务器正在侦听的端口。之后,它会密切关注服务活动,并在空闲时间过长时关闭该服务。

  5. kernel-*-*.log包含笔记本内核的输出。每个内核都有一个单独的日志文件,时间戳表明内核启动的时间。文件名中的第二个字表示内核的类型。

  6. spark*-ego.log包含Spark作业调度的输出。监控脚本使用它来检测Spark是否处于活动状态,尽管笔记本内核处于空闲状态。

  7. logs-*.tgz包含当天的归档日志。他们会在几天后自动删除。

1

随着DSX中最近启用的“环境”功能,日志已移至目录/var/pod/logs/。您仍将看到当前会话的kernel-*-*.logjupyter-*.log文件。但是,它们对调试无用。

在Spark as a Service后端中,每个内核都有一个Spark驱动程序进程,该进程会记录到kernel-*-*.log文件。环境特性不包含Spark,内核本身不会为日志文件生成输出。