我正在单个节点集群中的Hadoop 2.7.3上运行MapReduce作业。我如何计算地图所需时间并减少此作业的任务?计算还原者hadoop花费的时间
求助 万一它可以帮助任何人查看这个问题或面临类似的问题。 感谢@ Shubham的答案和一点点研究,我做的事:
- 作业调度器已在Hadoop中2中卸下已分裂成资源管理器和应用程序的主人。
- 访问的资源管理器,键入URL在您的浏览器“http://localhost:8088”
- 要访问的作业历史记录服务器(查看有关已完成了应用和作业的统计),请在您的浏览器的URL“ http://localhost:19888“
尝试访问作业历史记录服务器时可能会遇到错误。它可能表明应用程序没有历史记录。在这种情况下,请按照下列步骤操作:
- 更改的.bashrc文件
步骤:
i. In your terminal, type "nano ~/.bashrc"
ii. Now in this file, where the other hadoop variables are written add the line
export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
iii. Exit out of nano and save the file.
iv. Run the command "source ~/.bashrc"
1.要启动作业历史记录服务器
步骤:
i. Run the command in your terminal
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
ii. Then run the command
jps
You should be able to see the "JobHistoryServer" in the list
iii. Now run the command
netstat -ntlp | grep 19888
作业完成后,Web UI关闭。有没有什么办法可以获得工作完成后我可以访问的信息(可能在某些日志文件中) – alpha
@alpha如何向群集提交作业? –
目前我正在使用Hadoop与Python进行流式处理,但我打算切换到编写Java代码。 @Shubham – alpha