我在各种服务器上有几个cron-jobs和后台任务。这些任务可能会失败的原因有很多:用于监控cron作业和自动化任务的系统?
- 磁盘空间不足
- 处理奇怪,不可读文件类型
- 逻辑错误/在程序中的bug
- 无效cron项
- 无效JSON收到
- 网络连接失败
- db锁
- s系统库更新中断程序
为什么它们运行失败很重要,但最重要的是知道它们无法运行。
是否有一种统一的方式来监视多个作业,并在出现任何原因时无法在预定时间运行时收到警报?我使用Ubuntu,脚本主要是在Ruby中。
注:
我专门找了一个框架或系统跨多个服务器协同工作,并已通过电子邮件或者内置的文本,一个可以生存有限的磁盘空间警报。因此, How can I setup a system to tell me if a cron job is NOT running fine?中提出的解决方案似乎不适用。
我们使用http://www.clowder.io这种类型的服务 – keithhackbarth