2017-02-10 23 views
0

我正在单个节点集群中的Hadoop 2.7.3上运行MapReduce作业。我如何计算地图所需时间并减少此作业的任务?计算还原者hadoop花费的时间

求助 万一它可以帮助任何人查看这个问题或面临类似的问题。 感谢@ Shubham的答案和一点点研究,我做的事:

  1. 作业调度器已在Hadoop中2中卸下已分裂成资源管理器和应用程序的主人。
  2. 访问的资源管理器,键入URL在您的浏览器“http://localhost:8088
  3. 要访问的作业历史记录服务器(查看有关已完成了应用和作业的统计),请在您的浏览器的URL“ http://localhost:19888

尝试访问作业历史记录服务器时可能会遇到错误。它可能表明应用程序没有历史记录。在这种情况下,请按照下列步骤操作:

  1. 更改的.bashrc文件

步骤:

i. In your terminal, type "nano ~/.bashrc" 
ii. Now in this file, where the other hadoop variables are written add the line 
    export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop 
iii. Exit out of nano and save the file. 
iv. Run the command "source ~/.bashrc" 

1.要启动作业历史记录服务器

步骤:

i. Run the command in your terminal 
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver 
ii. Then run the command 
    jps 
You should be able to see the "JobHistoryServer" in the list 
iii. Now run the command 
netstat -ntlp | grep 19888 

回答

0

点击资源管理器的网络用户界面(http://rm_http_address_host:port/)。通常情况下,网络端口是8088.您可以为此打到http://resourcemanager_host:8088/
在那里你会找到所有的应用程序,如开始,运行,失败,成功等的链接
点击每个应用程序的链接将给你所有的统计数据(如容器数量(mappers/reducer的情况下的mapreduce),内存/ Vcor​​es使用,运行时间和更多的统计数据)。

还有很多统计资料都暴露了ResourceManager REST API的。在这里可以找到他们https://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html

+0

作业完成后,Web UI关闭。有没有什么办法可以获得工作完成后我可以访问的信息(可能在某些日志文件中) – alpha

+0

@alpha如何向群集提交作业? –

+0

目前我正在使用Hadoop与Python进行流式处理,但我打算切换到编写Java代码。 @Shubham – alpha

0

您可以转到jobtracker(默认情况下在端口50030上运行)并检查作业详细信息。它显示了地图时间和减少时间的计数器。此外,如果您对单个任务感兴趣,则可以按照链接“分析此作业”显示最佳和最差执行任务。

+0

作业完成后我还能得到这些信息吗? – alpha

+0

只要你的工作追踪器保持历史记录,你应该能够看到这个信息。我不确定关于控制历史的conifugration。 – Amit

相关问题