健康诊断-凯发k8国际娱乐官网入口

概述

健康诊断是容器智能分析的一个重要功能，用于诊断集群的健康状态。开通容器智能分析后，健康诊断将基于集群的配置和kube-prometheus-stack插件上报至aom的指标，从集群、节点、工作负载、核心插件、外部依赖的维度出发，提供全面的集群健康状态检查。同时，该功能还基于kubernetes集群的运维最佳实践，提供相应的诊断结果和修复建议。

约束与限制

集群版本高于v1.17。
集群处于“运行中”状态。

查看巡检详情

登录ucs控制台，在左侧导航栏中选择“容器智能分析”，选择一个容器舰队或者未加入舰队的集群。
单击“健康诊断”页签，您可通过健康诊断功能查看各个集群的正常比例及风险数量。
图1 健康诊断
下拉到“巡检集群”栏，可以查看当前集群巡检状态，选择已开启巡检的集群，单击“查看详情”，可进入健康诊断详情页查看诊断资源和诊断结果。

配置定时巡检规则

登录ucs控制台，在左侧导航栏中选择“容器智能分析”，选择一个容器舰队或者未加入舰队的集群。
单击“容器洞察 > 集群总览”页签查看已开启监控的集群。
单击上方“健康诊断”，进入诊断详情页，在右边开启“定时巡检”，配置定时任务启动的时间。
集群将在指定时间自动开始集群巡检任务。单个集群，每天仅支持配置一个定时巡检时间。

也可按照查看巡检详情指导进入单集群巡检详情页面。

发起诊断

按照查看巡检详情指导进入单集群巡检页面。
在下方“巡检集群”中选择未巡检集群，单击“马上诊断”。
集群将开始执行诊断。诊断结束后，页面将自动刷新并展示诊断结果，其中无风险项将自动隐藏。

健康诊断将针对不同维度的巡检项，归纳kubernetes中常见的问题，并提供相应的修复建议。用户可以单击“诊断详情”查看具体诊断项的详细信息以及存在异常的资源。在部分场景下，页面还提供相应的排查文档，供用户参考排查。

支持的巡检项

表1 cce集群巡检项
巡检维度	集群巡检场景	巡检项
集群	集群资源规划能力	集群master节点是否高可用
		集群cpu的request水位是否超过80%
		集群cpu的limit水位是否超过150%
		集群内存的request水位是否超过80%
		集群内存的limit水位是否超过150%
		集群版本是否超期
	集群运维能力	集群kube-prometheus-stack插件状态是否正常
		集群log-agent插件状态是否正常
		集群npd插件状态是否正常
	集群配置	安全组配置是否正确
核心插件	coredns插件状态	coredns近24小时cpu使用率最大值是否超过80%
		coredns近24小时内存使用率最大值是否超过80%
		coredns近24小时是否存在域名解析失败请求次数
		coredns近24小时p99请求时延是否超过5s
		coredns插件状态
	everest插件状态	everest插件状态
		everest近24小时cpu使用率最大值是否超过80%
		everest近24小时内存使用率最大值是否超过80%
	kube-prometheus-stack插件状态	kube-prometheus-stack近24小时cpu使用率最大值是否超过80%
		kube-prometheus-stack近24小时内存使用率最大值是否超过80%
		kube-prometheus-status插件状态
		kube-prometheus-status近24小时是否出现oom
		kube-prometheus-status在server部署模式下，prometheus-server的pvc使用率是否超过80%
	log-agent插件状态	log-agent插件状态
		lts日志组、日志流是否创建成功
		lts日志组结构化是否创建成功
	autoscaler插件状态	集群在开启节点池弹性扩缩容条件下，autoscaler插件状态是否可用
节点	节点状态	节点状态是否就绪
		节点状态不可调度
		节点kubelet状态
	节点配置	节点内存的requset是否超过80%
		节点cpu的request是否超过80%
		节点内存的limit检查是否超过150%
		节点cpu的limit检查是否超过150%
	节点资源水位诊断	节点24小时内cpu使用率最大值是否超过80%
		节点24小时内内存使用率最大值是否超过80%
		节点磁盘使用率是否超过80%
		节点pid使用量是否正常
		节点24小时内是否发生oom事件
负载	pod状态	pod状态检查
	pod负载状态	pod在24小时内是否发生oom
		pod的24小时内cpu使用率最大值是否超过80%
		pod的24小时内内存使用率最大值是否超过80%
	pod配置	pod中的容器是否配置request
	pod配置	pod中的容器是否配置limit
	pod探针配置	pod中的容器是否配置存活探针
	pod探针配置	pod中的容器是否配置就绪探针
外部依赖	租户节点资源配额	租户云硬盘配额是否超过90%
外部依赖	租户节点资源配额	租户ecs配额充足是否超过90%

表2 本地集群巡检项
巡检维度	集群巡检场景	巡检项
集群	集群资源规划能力	集群master节点是否高可用
		集群cpu的request水位是否超过80%
		集群cpu的limit水位是否超过150%
		集群内存的request水位是否超过80%
		集群内存的limit水位是否超过150%
	集群运维能力	集群kube-prometheus-stack插件状态是否正常
	集群运维能力	集群log-agent插件状态是否正常
核心插件	kube-prometheus-stack插件状态	kube-prometheus-stack近24小时cpu使用率最大值是否超过80%
		kube-prometheus-stack近24小时内存使用率最大值是否超过80%
		kube-prometheus-status插件状态
		kube-prometheus-status近24小时是否出现oom
	log-agent插件状态	log-agent插件状态
		lts日志组、日志流是否创建成功
		lts日志组结构化是否创建成功
节点	节点状态	节点状态是否就绪
		节点状态不可调度
		节点kubelet状态
	节点配置	节点内存的requset是否超过80%
		节点cpu的request是否超过80%
		节点内存的limit检查是否超过150%
		节点cpu的limit检查是否超过150%
	节点资源水位诊断	节点24小时内cpu使用率最大值是否超过80%
		节点24小时内内存使用率最大值是否超过80%
		节点磁盘使用率是否超过80%
		节点pid使用量是否正常
		节点24小时内是否发生oom事件
负载	pod状态	pod状态检查
	pod负载状态	pod在24小时内是否发生oom
		pod的24小时内cpu使用率最大值是否超过80%
		pod的24小时内内存使用率最大值是否超过80%
	pod配置	pod中的容器是否配置request
	pod配置	pod中的容器是否配置limit
	pod探针配置	pod中的容器是否配置存活探针
	pod探针配置	pod中的容器是否配置就绪探针
外部依赖	租户节点资源配额	租户云硬盘配额是否超过90%
外部依赖	租户节点资源配额	租户ecs配额充足是否超过90%

表3 附着集群、多云集群、伙伴云集群巡检项
巡检维度	集群巡检场景	巡检项
集群	集群资源规划能力	集群master节点是否高可用
		集群cpu的request水位是否超过80%
		集群cpu的limit水位是否超过150%
		集群内存的request水位是否超过80%
		集群内存的limit水位是否超过150%
	集群运维能力	集群kube-prometheus-stack插件状态是否正常
核心插件	kube-prometheus-stack插件状态	kube-prometheus-stack近24小时cpu使用率最大值是否超过80%
		kube-prometheus-stack近24小时内存使用率最大值是否超过80%
		kube-prometheus-status插件状态
		kube-prometheus-status近24小时是否出现oom
节点	节点状态	节点状态是否就绪
		节点状态不可调度
		节点kubelet状态
	节点配置	节点内存的requset是否超过80%
		节点cpu的request是否超过80%
		节点内存的limit检查是否超过150%
		节点cpu的limit检查是否超过150%
	节点资源水位诊断	节点24小时内cpu使用率最大值是否超过80%
		节点24小时内内存使用率最大值是否超过80%
		节点磁盘使用率是否超过80%
		节点pid使用量是否正常
		节点24小时内是否发生oom事件
负载	pod状态	pod状态检查
	pod负载状态	pod在24小时内是否发生oom
		pod的24小时内cpu使用率最大值是否超过80%
		pod的24小时内内存使用率最大值是否超过80%
	pod配置	pod中的容器是否配置request
	pod配置	pod中的容器是否配置limit
	pod探针配置	pod中的容器是否配置存活探针
	pod探针配置	pod中的容器是否配置就绪探针
外部依赖	租户节点资源配额	租户云硬盘配额是否超过90%
外部依赖	租户节点资源配额	租户ecs配额充足是否超过90%

父主题：

意见反馈

文档内容是否对您有帮助？

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨