我试图用Nagios监控Hadoop集群。我的目标是监视所有Hadoop守护进程(如DataNode,Jobtracker和Tasktracker等)的状态和资源使用情况。我能想到的解决方案是监视这些守护进程正在使用的端口。但是这似乎非常有限。比如,我看不出有多少任务节点等Nagios监控hadoop集群的脚本
所以,我的问题是正在运行:是否有使用的Nagios监控Hadoop的系统解决方案?
感谢,
淑敏
我试图用Nagios监控Hadoop集群。我的目标是监视所有Hadoop守护进程(如DataNode,Jobtracker和Tasktracker等)的状态和资源使用情况。我能想到的解决方案是监视这些守护进程正在使用的端口。但是这似乎非常有限。比如,我看不出有多少任务节点等Nagios监控hadoop集群的脚本
所以,我的问题是正在运行:是否有使用的Nagios监控Hadoop的系统解决方案?
感谢,
淑敏
有一定的方法来监控Hadoop集群与SNMP。您应该在Linux服务器上安装软件包snmp。还必须在群集上启用SNMP,我想有一个选项可以在某种基于Web的管理控制台中启用它。
当你启用这个,你应该能够snmpwalk的集群:
snmpwalk -v 2c -c public <ip address cluster>
..比你可以写一个Perl或bash脚本来检查您喜欢的位置监视特定的OID。 您可以将此脚本放置在您的'libexec'文件夹中,并在commands.cfg中为此脚本定义一个新命令,如check_cluster_snmp或您喜欢的任何内容。
您还可以查看使用JMX群集,但我不知道了很多关于JMX呢。
最好的办法是使用JMX,因为它允许一个视图到Java进程,以检查是怎么回事,以及提供指标(如被列入黑名单的节点,HDFS空间状态等)。
您可以通过URL拉从每个节点的数据http://node.domain:port/jmx?qry=*adoop
你可以看看这是有关这些问题: