更新时间:2024-01-05 gmt 08:00

健康诊断-凯发k8国际娱乐官网入口

概述

健康诊断是容器智能分析的一个重要功能,用于诊断集群的健康状态。开通容器智能分析后,健康诊断将基于集群的配置和kube-prometheus-stack插件上报至aom的指标,从集群、节点、工作负载、核心插件、外部依赖的维度出发,提供全面的集群健康状态检查。同时,该功能还基于kubernetes集群的运维最佳实践,提供相应的诊断结果和修复建议。

约束与限制

  • 集群版本高于v1.17。
  • 集群处于“运行中”状态。

查看巡检详情

  1. 登录ucs控制台,在左侧导航栏中选择“容器智能分析”,选择一个容器舰队或者未加入舰队的集群。

  2. 单击“健康诊断”页签,您可通过健康诊断功能查看各个集群的正常比例及风险数量。
    图1 健康诊断
  3. 下拉到“巡检集群”栏,可以查看当前集群巡检状态,选择已开启巡检的集群,单击“查看详情”,可进入健康诊断详情页查看诊断资源和诊断结果。

配置定时巡检规则

  1. 登录ucs控制台,在左侧导航栏中选择“容器智能分析”,选择一个容器舰队或者未加入舰队的集群。

  2. 单击“容器洞察 > 集群总览”页签查看已开启监控的集群。
  3. 单击上方“健康诊断”,进入诊断详情页,在右边开启“定时巡检”,配置定时任务启动的时间。

    集群将在指定时间自动开始集群巡检任务。单个集群,每天仅支持配置一个定时巡检时间。

    也可按照查看巡检详情指导进入单集群巡检详情页面。

发起诊断

  1. 按照查看巡检详情指导进入单集群巡检页面。
  2. 在下方“巡检集群”中选择未巡检集群,单击“马上诊断”。

    集群将开始执行诊断。诊断结束后,页面将自动刷新并展示诊断结果,其中无风险项将自动隐藏。

    健康诊断将针对不同维度的巡检项,归纳kubernetes中常见的问题,并提供相应的修复建议。用户可以单击“诊断详情”查看具体诊断项的详细信息以及存在异常的资源。在部分场景下,页面还提供相应的排查文档,供用户参考排查。

支持的巡检项

表1 cce集群巡检项

巡检维度

集群巡检场景

巡检项

集群

集群资源规划能力

集群master节点是否高可用

集群cpu的request水位是否超过80%

集群cpu的limit水位是否超过150%

集群内存的request水位是否超过80%

集群内存的limit水位是否超过150%

集群版本是否超期

集群运维能力

集群kube-prometheus-stack插件状态是否正常

集群log-agent插件状态是否正常

集群npd插件状态是否正常

集群配置

安全组配置是否正确

核心插件

coredns插件状态

coredns近24小时cpu使用率最大值是否超过80%

coredns近24小时内存使用率最大值是否超过80%

coredns近24小时是否存在域名解析失败请求次数

coredns近24小时p99请求时延是否超过5s

coredns插件状态

everest插件状态

everest插件状态

everest近24小时cpu使用率最大值是否超过80%

everest近24小时内存使用率最大值是否超过80%

kube-prometheus-stack插件状态

kube-prometheus-stack近24小时cpu使用率最大值是否超过80%

kube-prometheus-stack近24小时内存使用率最大值是否超过80%

kube-prometheus-status插件状态

kube-prometheus-status近24小时是否出现oom

kube-prometheus-status在server部署模式下,prometheus-server的pvc使用率是否超过80%

log-agent插件状态

log-agent插件状态

lts日志组、日志流是否创建成功

lts日志组结构化是否创建成功

autoscaler插件状态

集群在开启节点池弹性扩缩容条件下,autoscaler插件状态是否可用

节点

节点状态

节点状态是否就绪

节点状态不可调度

节点kubelet状态

节点配置

节点内存的requset是否超过80%

节点cpu的request是否超过80%

节点内存的limit检查是否超过150%

节点cpu的limit检查是否超过150%

节点资源水位诊断

节点24小时内cpu使用率最大值是否超过80%

节点24小时内内存使用率最大值是否超过80%

节点磁盘使用率是否超过80%

节点pid使用量是否正常

节点24小时内是否发生oom事件

负载

pod状态

pod状态检查

pod负载状态

pod在24小时内是否发生oom

pod的24小时内cpu使用率最大值是否超过80%

pod的24小时内内存使用率最大值是否超过80%

pod配置

pod中的容器是否配置request

pod中的容器是否配置limit

pod探针配置

pod中的容器是否配置存活探针

pod中的容器是否配置就绪探针

外部依赖

租户节点资源配额

租户云硬盘配额是否超过90%

租户ecs配额充足是否超过90%

表2 本地集群巡检项

巡检维度

集群巡检场景

巡检项

集群

集群资源规划能力

集群master节点是否高可用

集群cpu的request水位是否超过80%

集群cpu的limit水位是否超过150%

集群内存的request水位是否超过80%

集群内存的limit水位是否超过150%

集群运维能力

集群kube-prometheus-stack插件状态是否正常

集群log-agent插件状态是否正常

核心插件

kube-prometheus-stack插件状态

kube-prometheus-stack近24小时cpu使用率最大值是否超过80%

kube-prometheus-stack近24小时内存使用率最大值是否超过80%

kube-prometheus-status插件状态

kube-prometheus-status近24小时是否出现oom

log-agent插件状态

log-agent插件状态

lts日志组、日志流是否创建成功

lts日志组结构化是否创建成功

节点

节点状态

节点状态是否就绪

节点状态不可调度

节点kubelet状态

节点配置

节点内存的requset是否超过80%

节点cpu的request是否超过80%

节点内存的limit检查是否超过150%

节点cpu的limit检查是否超过150%

节点资源水位诊断

节点24小时内cpu使用率最大值是否超过80%

节点24小时内内存使用率最大值是否超过80%

节点磁盘使用率是否超过80%

节点pid使用量是否正常

节点24小时内是否发生oom事件

负载

pod状态

pod状态检查

pod负载状态

pod在24小时内是否发生oom

pod的24小时内cpu使用率最大值是否超过80%

pod的24小时内内存使用率最大值是否超过80%

pod配置

pod中的容器是否配置request

pod中的容器是否配置limit

pod探针配置

pod中的容器是否配置存活探针

pod中的容器是否配置就绪探针

外部依赖

租户节点资源配额

租户云硬盘配额是否超过90%

租户ecs配额充足是否超过90%

表3 附着集群、多云集群、伙伴云集群巡检项

巡检维度

集群巡检场景

巡检项

集群

集群资源规划能力

集群master节点是否高可用

集群cpu的request水位是否超过80%

集群cpu的limit水位是否超过150%

集群内存的request水位是否超过80%

集群内存的limit水位是否超过150%

集群运维能力

集群kube-prometheus-stack插件状态是否正常

核心插件

kube-prometheus-stack插件状态

kube-prometheus-stack近24小时cpu使用率最大值是否超过80%

kube-prometheus-stack近24小时内存使用率最大值是否超过80%

kube-prometheus-status插件状态

kube-prometheus-status近24小时是否出现oom

节点

节点状态

节点状态是否就绪

节点状态不可调度

节点kubelet状态

节点配置

节点内存的requset是否超过80%

节点cpu的request是否超过80%

节点内存的limit检查是否超过150%

节点cpu的limit检查是否超过150%

节点资源水位诊断

节点24小时内cpu使用率最大值是否超过80%

节点24小时内内存使用率最大值是否超过80%

节点磁盘使用率是否超过80%

节点pid使用量是否正常

节点24小时内是否发生oom事件

负载

pod状态

pod状态检查

pod负载状态

pod在24小时内是否发生oom

pod的24小时内cpu使用率最大值是否超过80%

pod的24小时内内存使用率最大值是否超过80%

pod配置

pod中的容器是否配置request

pod中的容器是否配置limit

pod探针配置

pod中的容器是否配置存活探针

pod中的容器是否配置就绪探针

外部依赖

租户节点资源配额

租户云硬盘配额是否超过90%

租户ecs配额充足是否超过90%

分享:
网站地图