更新时间:2023-10-27 gmt 08:00

边缘节点故障如何处理?-凯发k8国际娱乐官网入口

故障现象

边缘节点状态显示为“故障”,将鼠标移动到上,会显示故障原因。

图1 节点故障

排查思路

边缘节点故障有如下原因,请根据如下原因排查处理。

表1 排查思路

可能原因

处理措施

边缘节点关机

边缘节点关机

容器引擎故障,包括容器引擎未启动和容器引擎服务异常

边缘节点本地容器引擎服务异常

节点磁盘空间不足

边缘节点网络连接异常

边缘节点网络连接异常

gpu驱动异常

gpu驱动异常

npu插件异常

npu插件异常

边缘节点的核心组件(edgecore)异常

ief在边缘节点的核心组件(edgecore)异常

边缘节点强行关机并之后强行开机,系统进入恢复模式

边缘节点强行关机并之后强行开机,系统进入恢复模式

边缘节点关机

边缘节点关机后,边缘节点将无法向ief上报边缘节点状态,ief会判定边缘节点故障,请保持边缘节点开机。

ief并不会根据边缘节点收费的,而是依据边缘应用收费,边缘节点故障后,边缘应用仍以异常状态存在ief中,仍会继续收费。所以,如果您暂时不需要该服务,请确保在ief中删除应用,而不是关机。

边缘节点本地容器引擎服务异常

ief的系统组件edgecore的启动和正常运行依赖容器引擎。因此,如果容器引擎不正常,会导致edgecore组件无法启动。

解决方法:

  1. 使用docker version命令查看容器引擎是否正常。如果不正常,可使用systemctl restart docker命令重启容器引擎。
  2. 使用docker ps命令查看容器引擎是否可以使用。如果不可以,重新启动或安装容器引擎。

请勿强制下电边缘节点,强制下电可能会导致边缘节点上的数据文件丢失或损毁,从而导致节点故障。

边缘节点容器磁盘空间不足

解决方法:

  1. 登录边缘节点。执行如下命令查看当前边缘节点容器所挂载的磁盘空间使用情况。

    df -h

  2. 删除边缘节点中的多余文件,释放磁盘空间。

    rm 文件名称

边缘节点/opt/ief磁盘空间不足

解决方法:

  1. 登录边缘节点。执行如下命令查看当前边缘节点/opt/ief所挂载的磁盘空间使用情况。

    df -h

  2. 删除边缘节点中的多余文件,释放磁盘空间。

    rm 文件名称

边缘节点/var/ief/sys/log磁盘空间不足

解决方法:

  1. 登录边缘节点。执行如下命令查看当前边缘节点/var/ief/sys/log所挂载的磁盘空间使用情况。

    df -h

  2. 删除边缘节点中的多余文件,释放磁盘空间。

    rm 文件名称

边缘节点网络连接异常

确认方法:

  1. 在边缘节点执行如下命令,获取连接ief的地址。

    cat /opt/ief/edge-core/conf/edge.yaml | grep ws-url

    回显类似以下结果。

    ws-url: wss://ief2-edgeaccess.cn-north-4.myhuaweicloud.com:443/

    其中,

    ief2-edgeaccess.cn-north-4.myhuaweicloud.com为需要获取的地址,不同区域地址不同。铂金版服务实例的地址格式为:1fc0704e-229c-4210-9802-75f66aeffe3d.cn-north-4.huaweiief.com,您也可以在ief控制台获取该地址,即云端接入域名。

    图2 获取云端接入域名
  2. 使用curl命令检查边缘节点与ief网络是否能连接。

    curl -i -v -k https://ief2-edgeaccess.cn-north-4.myhuaweicloud.com

    • 如果一直没有回显,则说明边缘节点与ief网络不通。
    • 如果回显如下,则说明网络正常。
      * about to connect() to ief2-edgeaccess.cn-north-4.myhuaweicloud.com port 443 (#0)
      *   trying 49.4.115.239...
      * connected to ief2-edgeaccess.cn-north-4.myhuaweicloud.com (*.*.*.*) port 443 (#0)
      * initializing nss with certpath: sql:/etc/pki/nssdb
      * skipping ssl peer certificate verification
      * nss: client certificate not found (nickname not specified)
      * ssl connection using tls_ecdhe_rsa_with_aes_128_gcm_sha256
      * server certificate:
      * subject: oid.1.1.1.4=42701fe87611496e80c824778c9857ca,oid.1.1.1.3=op_svc_ief_container1:88125631e95e4d3fbdfa7e6ced0f9dd4,oid.1.1.1.2=cn-north-4:42701fe8761
      1496e80c824778c9857ca:op_cfe_kubelet,oid.1.1.1.1=op_svc_ief_container1,cn=paas.placement.certs.secret oss3.0 ca,ou=oss & service tools dept,o="huawei technologies 
      co., ltd",l=shenzhen,st=guangdong,c=cn
      * start date: apr 29 16:00:00 2019 gmt
      * expire date: apr 29 16:00:00 2049 gmt
      * common name: paas.placement.certs.secret oss3.0 ca
      > get / http/1.1
      .....

可能原因及解决方法:

  1. 域名解析问题。

    执行如下命令。

    ping ief2-edgeaccess.cn-north-4.myhuaweicloud.com

    看是否可以解析出ip,如果无法解析出ip,请执行如下命令查看域名解析服务器配置是否被修改。

    cat /etc/resolv.conf

    解决办法:

    • 配置正确的域名解析服务器,推荐114.114.114.114
    • 获取正确的域名解析出来的ip,通过配置host文件临时规避
  2. 代理问题

    如果通过代理的方式,请确认是否配置代理,代理是否配置正确:

    • 是否为节点配置了代理

      确认方法:

      env | grep proxy

      env | grep proxy

    • 是否为edgecore配置代理

      确认方法:

      cat /opt/ief/cert/user_config | grep proxy

    如果不是通过代理的方式,请务必通过以上方式确认没有配置代理。

  3. 网络状态不稳

    确认边缘节点网络状态是否正常,是否存在网络不稳情况,如果出现网络不稳,会导致边缘节点的状态在“故障”“运行中”两者之间不断跳动。

gpu驱动异常

解决方法:

  1. 安装gpu驱动。

    ief当前支持nvidia tesla系列p4、p40、t4等型号gpu,支持cuda toolkit 8.0至11.0版本对应的驱动。

    1. 下载gpu驱动,推荐驱动链接:
    2. 执行如下安装驱动命令。

      bash nvidia-linux-x86_64-440.33.01.run

    3. 执行如下命令检查gpu驱动安装状态。

      nvidia-smi

  2. 拷贝gpu驱动文件到指定目录。
    1. 以root用户登录边缘节点。
    2. 执行如下命令。

      nvidia-modprobe -c0 -u

    3. 创建文件夹。

      mkdir -p /var/ief/nvidia/drivers /var/ief/nvidia/bin /var/ief/nvidia/lib64

    4. 拷贝驱动文件。
      • 对于centos,依次执行如下命令拷贝驱动文件:

        cp /lib/modules/{当前环境内核版本号}/kernel/drivers/video/nvi* /var/ief/nvidia/drivers/

        cp /usr/bin/nvidia-* /var/ief/nvidia/bin/

        cp -rd /usr/lib64/libcuda* /var/ief/nvidia/lib64/

        cp -rd /usr/lib64/libeg* /var/ief/nvidia/lib64/

        cp -rd /usr/lib64/libgl* /var/ief/nvidia/lib64/

        cp -rd /usr/lib64/libnv* /var/ief/nvidia/lib64/

        cp -rd /usr/lib64/libopen* /var/ief/nvidia/lib64/

        cp -rd /usr/lib64/libvdpau_nvidia* /var/ief/nvidia/lib64/

        cp -rd /usr/lib64/vdpau /var/ief/nvidia/lib64/

      • 对于ubuntu,依次执行如下命令拷贝驱动文件:

        cp /lib/modules/{当前环境内核版本号}/kernel/drivers/video/nvi* /var/ief/nvidia/drivers/

        cp /usr/bin/nvidia-* /var/ief/nvidia/bin/

        cp -rd /usr/lib/x86_64-linux-gnu/libcuda* /var/ief/nvidia/lib64/

        cp -rd /usr/lib/x86_64-linux-gnu/libeg* /var/ief/nvidia/lib64/

        cp -rd /usr/lib/x86_64-linux-gnu/libgl* /var/ief/nvidia/lib64/

        cp -rd /usr/lib/x86_64-linux-gnu/libnv* /var/ief/nvidia/lib64/

        cp -rd /usr/lib/x86_64-linux-gnu/libopen* /var/ief/nvidia/lib64/

        cp -rd /usr/lib/x86_64-linux-gnu/libvdpau_nvidia* /var/ief/nvidia/lib64/

        cp -rd /usr/lib/x86_64-linux-gnu/vdpau /var/ief/nvidia/lib64/

      其中,当前环境内核版本号可以使用uname -r命令查看获取,如下所示,请替换为实际取值。

      # uname -r
      3.10.0-514.e17.x86_64
    5. 执行以下命令修改目录权限。

      chmod -r 755 /var/ief

npu插件异常

  1. 登录边缘节点。
  2. 执行如下命令查看npu驱动容器是否工作正常。

    docker ps -a |grep npu

  3. 如果容器状态不是running,则重启容器。

    docker restart {container_name}

    {container_name} 为容器名称。

ief在边缘节点的核心组件(edgecore)异常

查看edgecore组件是否正常:

systemctl status edgecore

如果edgecore组件显示故障,可能包含以下原因:

  • 8883/1883端口被占用:

    请确认您的边缘节点8883端口和1883端口是否被占用,如果被占用,请先保证端口未被占用情况下,执行systemctl restart edgecore恢复。

  • 容器引擎状态异常:

    执行systemctl status docker确认容器引擎是否正常,如果异常,请执行systemctl restart docker恢复。

  • 防火墙原因:请参见。

边缘节点强行关机并之后强行开机,系统进入恢复模式

如果您的边缘节点进行了强制下电关机以及强制开机强制重启,有一定的概率使您的系统进入恢复模式,请确认/opt/ief目录是否正常,如果存在丢失,会导致ief边缘节点故障。

确认方法:

  • 执行systemctl status edgecore显示服务状态异常,执行systemctl restart edgecore可能会显示服务不存在。
  • 执行systemctl status edgelogger显示状态异常,执行systemctl restart edgelogger可能会显示服务不存在。
  • 执行systemctl status edgemonitor显示状态异常,执行systemctl restart edgemonitor可能会显示服务不存在。

恢复方法:

请确保您的机器开机时是以正常模式进入的。另外,边缘节点异常下电极有可能会造成文件损坏或者丢失,请避免执行该类操作,如出现该问题,请。

分享:

more

网站地图