猪脚本可以翻译成多个MR作业,我想知道是否有界面或方法来查看整个PIG脚本的进度,例如计划多少个作业,执行等。如何检查PIG作业的总体进度
回答
有一个命令说明但它引发我的部署异常。所以我使用另一种方法。
你可以在很多MR作业如何使用解释命令来看,在实际规划部分,这是在解释报告的结尾安排的信息。要获得脚本的MR作业数量,我执行以下操作:
./pig -e 'explain -script ./script_name.pig' > ./explain.txt
grep MapReduce ./explain.txt | wc -l
现在我们计划了MR作业的数量。要监视脚本执行,在运行之前,需要访问Hadoop的jobtracker页面(通过“http://(IP_or_node_name):50030/jobtracker.jsp”)并记下上一个作业的名称(Completed Jobs部分)。提交脚本。刷新jobtracker页面并计算有多少个正在运行的作业,以及在您记录的那个之后完成多少个作业。现在您可以了解剩下多少工作要执行。 点击每项工作,查看其统计数据和进度。
更简单的方法是在小数据集上运行脚本,记下作业的数量,并在脚本执行后显示在控制台输出上。由于猪没有改变其执行计划,它将与大数据集相同。通过查看Hadoop的jobtracker页面上的每个作业的统计信息(通过“http://(IP_or_node_name):50030/jobtracker.jsp”),您可以了解每个MR作业所占的时间比例。您可以使用它来近似插值大数据集上的执行时间。如果您的数据和一些笛卡尔产品有偏差,执行时间预测可能会变得棘手。
我们在Twitter上遇到了同样的问题,因为我们的一些Pig脚本启动了数十个Map-Reduce作业,有时很难分辨出他们中的哪些人正在做什么,理解计划的效率,了解多少人会并行运行等
所以我们创建了Twitter的安布罗斯:https://github.com/twitter/ambrose
它旋转起来,让你一个很好的网络用户界面,显示作业DAG一点码头服务器,颜色齐全作业的节点,使你对工作进行统计,并告诉你每个工作正试图计算哪些关系。
- 1. Hadoop PIG作业中的Lucene查询
- 2. 如何检查Vagrant进度
- 3. 在嵌入式构建过程中检查总体进度
- 4. 如何查看扭矩集群上的.jar作业的进度
- 5. 如何检查qsub作业的命运
- 6. 如何检查php作业实例
- 7. 如何检查HttpWebRequest上传的进度?
- 8. 如何使用后台工作人员检查进程进度
- 9. PowerShell作业进度监控
- 10. 如何总结特定的列时PIG
- 11. Uploadify检查进度
- 12. cURL检查进度
- 13. AFNetworking检查进度
- 14. 从外部Pig作业(Pig - > DSE连接器)写入DSE
- 15. Hadoop作业调度查询
- 16. 如何检查基于骡的石英调度程序中的作业状态
- 17. Swift:检查SKActions的进度
- 18. 如何在构建Wordpress主题时检查工作进度?
- 19. 如何在成功时保留PIG作业日志文件。
- 20. WebHCat&Pig - 如何将参数文件传递给作业?
- 21. 如何检查作业是否正确进行(Python的机械化)
- 22. 如何在eclipse rcp中显示作业的进度?
- 23. 如何跟踪队列作业的进度?
- 24. 如何检查我有以下我都用检查哪个石英调度作业运行代码Quartz调度作业未运行
- 25. 如何查看Resque作业
- 26. 如何检索作业队列中的预定作业列表?
- 27. 总结Pig中的值
- 28. Pig的COGROUP操作员如何工作?
- 29. 如何检查发送给HTcondor的特定作业的状态?
- 30. 检查SOLR索引进度