
最新 Kubernetes-Job-解决-Prometheus-误报的坑-监控 (kubernetes)
这是因为一般在执行Job任务的时候我们会保留一些历史记录方便排查问题,所以如果之前有失败的Job了,即便稍后会变成成功的,那么之前的Job也会继续存在,而大部分直接使用kube,prometheus安装部署的话使用的默认报警规则是kube,job,status,failed>,0,这显然是不准确的,只有我们去手动删除之前这个失败的...。
这是因为一般在执行Job任务的时候我们会保留一些历史记录方便排查问题,所以如果之前有失败的Job了,即便稍后会变成成功的,那么之前的Job也会继续存在,而大部分直接使用kube,prometheus安装部署的话使用的默认报警规则是kube,job,status,failed>,0,这显然是不准确的,只有我们去手动删除之前这个失败的...。