计算还原者hadoop花费的时间

我正在单个节点集群中的Hadoop 2.7.3上运行MapReduce作业。我如何计算地图所需时间并减少此作业的任务？计算还原者hadoop花费的时间

求助万一它可以帮助任何人查看这个问题或面临类似的问题。感谢@ Shubham的答案和一点点研究，我做的事：

作业调度器已在Hadoop中2中卸下已分裂成资源管理器和应用程序的主人。
访问的资源管理器，键入URL在您的浏览器“http://localhost:8088”
要访问的作业历史记录服务器（查看有关已完成了应用和作业的统计），请在您的浏览器的URL“ http://localhost:19888“

尝试访问作业历史记录服务器时可能会遇到错误。它可能表明应用程序没有历史记录。在这种情况下，请按照下列步骤操作：

更改的.bashrc文件

步骤：

i. In your terminal, type "nano ~/.bashrc" 
ii. Now in this file, where the other hadoop variables are written add the line 
    export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop 
iii. Exit out of nano and save the file. 
iv. Run the command "source ~/.bashrc"

1.要启动作业历史记录服务器

步骤：

i. Run the command in your terminal 
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver 
ii. Then run the command 
    jps 
You should be able to see the "JobHistoryServer" in the list 
iii. Now run the command 
netstat -ntlp | grep 19888

来源

2017-02-10 alpha

点击资源管理器的网络用户界面（http://rm_http_address_host:port/）。通常情况下，网络端口是8088.您可以为此打到http://resourcemanager_host:8088/。
在那里你会找到所有的应用程序，如开始，运行，失败，成功等的链接
点击每个应用程序的链接将给你所有的统计数据（如容器数量（mappers/reducer的情况下的mapreduce），内存/ Vcores使用，运行时间和更多的统计数据）。

还有很多统计资料都暴露了ResourceManager REST API的。在这里可以找到他们https://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html

来源

2017-02-10 17:04:11

作业完成后，Web UI关闭。有没有什么办法可以获得工作完成后我可以访问的信息（可能在某些日志文件中） – alpha

@alpha如何向群集提交作业？ –

目前我正在使用Hadoop与Python进行流式处理，但我打算切换到编写Java代码。 @Shubham – alpha

您可以转到jobtracker（默认情况下在端口50030上运行）并检查作业详细信息。它显示了地图时间和减少时间的计数器。此外，如果您对单个任务感兴趣，则可以按照链接“分析此作业”显示最佳和最差执行任务。

来源

2017-02-10 16:55:29 Amit

作业完成后我还能得到这些信息吗？ – alpha

只要你的工作追踪器保持历史记录，你应该能够看到这个信息。我不确定关于控制历史的conifugration。 – Amit

计算还原者hadoop花费的时间

回答

相关问题