Q

如何组合datadog io指标以识别磁盘瓶颈？

datadog

2016-02-05 54 views 3 likes

3

我试图在DataDog中创建一个警报，当磁盘性能降低我们的机器时，它会提醒我们。如何组合datadog io指标以识别磁盘瓶颈？

作为一项业务需求，我会说，如果IO在30分钟内接近饱和（超过90％），应该触发警报。

以下是当前的指标集被记录： sys.cpu.iowait system.io.avg_q_sz system.io.avg_rq_sz system.io.await system.io.r_await system.io.r_s system.io.rkb_s system.io.rrqm_s system.io.svctm system.io.util system.io.w_await system.io.w_s system.io.wkb_s system.io.wrqm_s

它可以使用任何公式来组合这些，包括SUM和AVG值。

2016-02-05 sorin

A

回答

7

这些system.io指标是从system agent check报告的，它使用iostat。

根据指标的iostat manpage一个%util（报告中Datadog system.io.util）似乎做的工作：

％UTIL：的CPU时间百分比期间的I/O请求被发送到设备（设备的带宽利用率）。当此值接近100％时，会发生设备饱和。

您可以创建一个监控器，如主机/设备上的多警惕，当这个指标是在90上平均的最后30分钟，这里就是这样的例子的当前屏幕截图：

当然，还可以监视其他iostat度量标识以识别其他I/O性能故障模式。

2016-02-19 15:47:27

+0

谢谢！你的回答非常明显，但我一直在寻找一段时间没有运气 – mdegges

相关问题