2017-08-30 37 views
0

我试图将Nagios-NRPE检查变为Check_MK检查。第一个是:check_mk“进程的状态和计数”规则阈值

check_procs -w 10 -c 15 -C crond 

我尝试使用State and coung processes规则,但它总是提出一个严重警报。我的规则的参数(从rules.mk配置文件中提取):

'process': 'crond' 
'okmax': 10 
'okmin': 1 
'warnmax': 15 
'warnmin': 11 

由于WATO配置屏幕只字未提临界阈值,我已经猜到了这些阈值之外的值以上提高的关键警报。

我的问题是:当此规则处于活动状态时,即使发现的进程数在OK阈值以内,也会引发严重警报

警报的Status detail

CRIT - 7 processes (ok from 1 to 15)CRIT 1620.6 MB virtual, 28.2 MB resident, 2.7% CPU 

然后,我无法理解这样的行为,我觉得我误解了check_MK阈值参数还是我失去了一些东西。

你能帮我吗?

Thanx提前。

回答

0

正如我在我的问题最后一段中所怀疑的,我误解了check_MK阈值参数。

这些都是~/share/check_mk/checks/ps发现Python代码行:

state = 0 
if count > params["warnmax"] or count < params["warnmin"]: 
    state = 2 
    infotext += " (ok from %d to %d)(!!)" % (params["okmin"], params["okmax"]) 
elif count > params["okmax"] or count < params["okmin"]: 
    state = 1 
    infotext += " (ok from %d to %d)(!)" % (params["okmin"], params["okmax"]) 

因此,任何价值低于warnmin提出了一个严重警报。因此,为了防止这种情况,必须包括一个。在我的示例中,值应该降低以匹配okmin之一。

'process': 'crond' 
'okmax': 10 
'okmin': 1 
'warnmax': 15 
'warnmin': 1 

在数学术语中,ok间隔必须为warn一个子区间。

我错误地猜到这些间隔不应该重叠,但实际上他们必须。