边缘节点故障如何处理?-凯发k8国际娱乐官网入口
故障现象
边缘节点状态显示为“故障”,将鼠标移动到上,会显示故障原因。
排查思路
边缘节点故障有如下原因,请根据如下原因排查处理。
可能原因 |
处理措施 |
---|---|
边缘节点关机 |
|
容器引擎故障,包括容器引擎未启动和容器引擎服务异常 |
|
节点磁盘空间不足 |
|
边缘节点网络连接异常 |
|
gpu驱动异常 |
|
npu插件异常 |
|
边缘节点的核心组件(edgecore)异常 |
|
边缘节点强行关机并之后强行开机,系统进入恢复模式 |
边缘节点关机
边缘节点关机后,边缘节点将无法向ief上报边缘节点状态,ief会判定边缘节点故障,请保持边缘节点开机。
ief并不会根据边缘节点收费的,而是依据边缘应用收费,边缘节点故障后,边缘应用仍以异常状态存在ief中,仍会继续收费。所以,如果您暂时不需要该服务,请确保在ief中删除应用,而不是关机。
边缘节点本地容器引擎服务异常
ief的系统组件edgecore的启动和正常运行依赖容器引擎。因此,如果容器引擎不正常,会导致edgecore组件无法启动。
解决方法:
- 使用docker version命令查看容器引擎是否正常。如果不正常,可使用systemctl restart docker命令重启容器引擎。
- 使用docker ps命令查看容器引擎是否可以使用。如果不可以,重新启动或安装容器引擎。
请勿强制下电边缘节点,强制下电可能会导致边缘节点上的数据文件丢失或损毁,从而导致节点故障。
边缘节点容器磁盘空间不足
解决方法:
- 登录边缘节点。执行如下命令查看当前边缘节点容器所挂载的磁盘空间使用情况。
df -h
- 删除边缘节点中的多余文件,释放磁盘空间。
rm 文件名称
边缘节点/opt/ief磁盘空间不足
解决方法:
- 登录边缘节点。执行如下命令查看当前边缘节点/opt/ief所挂载的磁盘空间使用情况。
df -h
- 删除边缘节点中的多余文件,释放磁盘空间。
rm 文件名称
边缘节点/var/ief/sys/log磁盘空间不足
解决方法:
- 登录边缘节点。执行如下命令查看当前边缘节点/var/ief/sys/log所挂载的磁盘空间使用情况。
df -h
- 删除边缘节点中的多余文件,释放磁盘空间。
rm 文件名称
边缘节点网络连接异常
确认方法:
- 在边缘节点执行如下命令,获取连接ief的地址。
cat /opt/ief/edge-core/conf/edge.yaml | grep ws-url
回显类似以下结果。
ws-url: wss://ief2-edgeaccess.cn-north-4.myhuaweicloud.com:443/
其中,
ief2-edgeaccess.cn-north-4.myhuaweicloud.com为需要获取的地址,不同区域地址不同。铂金版服务实例的地址格式为:1fc0704e-229c-4210-9802-75f66aeffe3d.cn-north-4.huaweiief.com,您也可以在ief控制台获取该地址,即云端接入域名。
图2 获取云端接入域名
- 使用curl命令检查边缘节点与ief网络是否能连接。
curl -i -v -k https://ief2-edgeaccess.cn-north-4.myhuaweicloud.com
- 如果一直没有回显,则说明边缘节点与ief网络不通。
- 如果回显如下,则说明网络正常。
* about to connect() to ief2-edgeaccess.cn-north-4.myhuaweicloud.com port 443 (#0) * trying 49.4.115.239... * connected to ief2-edgeaccess.cn-north-4.myhuaweicloud.com (*.*.*.*) port 443 (#0) * initializing nss with certpath: sql:/etc/pki/nssdb * skipping ssl peer certificate verification * nss: client certificate not found (nickname not specified) * ssl connection using tls_ecdhe_rsa_with_aes_128_gcm_sha256 * server certificate: * subject: oid.1.1.1.4=42701fe87611496e80c824778c9857ca,oid.1.1.1.3=op_svc_ief_container1:88125631e95e4d3fbdfa7e6ced0f9dd4,oid.1.1.1.2=cn-north-4:42701fe8761 1496e80c824778c9857ca:op_cfe_kubelet,oid.1.1.1.1=op_svc_ief_container1,cn=paas.placement.certs.secret oss3.0 ca,ou=oss & service tools dept,o="huawei technologies co., ltd",l=shenzhen,st=guangdong,c=cn * start date: apr 29 16:00:00 2019 gmt * expire date: apr 29 16:00:00 2049 gmt * common name: paas.placement.certs.secret oss3.0 ca > get / http/1.1 .....
可能原因及解决方法:
- 域名解析问题。
执行如下命令。
ping ief2-edgeaccess.cn-north-4.myhuaweicloud.com
看是否可以解析出ip,如果无法解析出ip,请执行如下命令查看域名解析服务器配置是否被修改。
cat /etc/resolv.conf
解决办法:
- 配置正确的域名解析服务器,推荐114.114.114.114
- 获取正确的域名解析出来的ip,通过配置host文件临时规避
- 代理问题
如果通过代理的方式,请确认是否配置代理,代理是否配置正确:
- 是否为节点配置了代理
确认方法:
env | grep proxy
env | grep proxy
- 是否为edgecore配置代理
确认方法:
cat /opt/ief/cert/user_config | grep proxy
如果不是通过代理的方式,请务必通过以上方式确认没有配置代理。
- 是否为节点配置了代理
- 网络状态不稳
确认边缘节点网络状态是否正常,是否存在网络不稳情况,如果出现网络不稳,会导致边缘节点的状态在“故障”和“运行中”两者之间不断跳动。
gpu驱动异常
解决方法:
- 安装gpu驱动。
ief当前支持nvidia tesla系列p4、p40、t4等型号gpu,支持cuda toolkit 8.0至11.0版本对应的驱动。
- 下载gpu驱动,推荐驱动链接:
- 执行如下安装驱动命令。
bash nvidia-linux-x86_64-440.33.01.run
- 执行如下命令检查gpu驱动安装状态。
nvidia-smi
- 拷贝gpu驱动文件到指定目录。
- 以root用户登录边缘节点。
- 执行如下命令。
nvidia-modprobe -c0 -u
- 创建文件夹。
mkdir -p /var/ief/nvidia/drivers /var/ief/nvidia/bin /var/ief/nvidia/lib64
- 拷贝驱动文件。
- 对于centos,依次执行如下命令拷贝驱动文件:
cp /lib/modules/{当前环境内核版本号}/kernel/drivers/video/nvi* /var/ief/nvidia/drivers/
cp /usr/bin/nvidia-* /var/ief/nvidia/bin/
cp -rd /usr/lib64/libcuda* /var/ief/nvidia/lib64/
cp -rd /usr/lib64/libeg* /var/ief/nvidia/lib64/
cp -rd /usr/lib64/libgl* /var/ief/nvidia/lib64/
cp -rd /usr/lib64/libnv* /var/ief/nvidia/lib64/
cp -rd /usr/lib64/libopen* /var/ief/nvidia/lib64/
cp -rd /usr/lib64/libvdpau_nvidia* /var/ief/nvidia/lib64/
cp -rd /usr/lib64/vdpau /var/ief/nvidia/lib64/
- 对于ubuntu,依次执行如下命令拷贝驱动文件:
cp /lib/modules/{当前环境内核版本号}/kernel/drivers/video/nvi* /var/ief/nvidia/drivers/
cp /usr/bin/nvidia-* /var/ief/nvidia/bin/
cp -rd /usr/lib/x86_64-linux-gnu/libcuda* /var/ief/nvidia/lib64/
cp -rd /usr/lib/x86_64-linux-gnu/libeg* /var/ief/nvidia/lib64/
cp -rd /usr/lib/x86_64-linux-gnu/libgl* /var/ief/nvidia/lib64/
cp -rd /usr/lib/x86_64-linux-gnu/libnv* /var/ief/nvidia/lib64/
cp -rd /usr/lib/x86_64-linux-gnu/libopen* /var/ief/nvidia/lib64/
cp -rd /usr/lib/x86_64-linux-gnu/libvdpau_nvidia* /var/ief/nvidia/lib64/
cp -rd /usr/lib/x86_64-linux-gnu/vdpau /var/ief/nvidia/lib64/
其中,当前环境内核版本号可以使用uname -r命令查看获取,如下所示,请替换为实际取值。
# uname -r 3.10.0-514.e17.x86_64
- 对于centos,依次执行如下命令拷贝驱动文件:
- 执行以下命令修改目录权限。
chmod -r 755 /var/ief
npu插件异常
- 登录边缘节点。
- 执行如下命令查看npu驱动容器是否工作正常。
docker ps -a |grep npu
- 如果容器状态不是running,则重启容器。
docker restart {container_name}
{container_name} 为容器名称。
ief在边缘节点的核心组件(edgecore)异常
查看edgecore组件是否正常:
systemctl status edgecore
如果edgecore组件显示故障,可能包含以下原因:
- 8883/1883端口被占用:
请确认您的边缘节点8883端口和1883端口是否被占用,如果被占用,请先保证端口未被占用情况下,执行systemctl restart edgecore恢复。
- 容器引擎状态异常:
执行systemctl status docker确认容器引擎是否正常,如果异常,请执行systemctl restart docker恢复。
- 防火墙原因:请参见。
边缘节点强行关机并之后强行开机,系统进入恢复模式
如果您的边缘节点进行了强制下电关机以及强制开机强制重启,有一定的概率使您的系统进入恢复模式,请确认/opt/ief目录是否正常,如果存在丢失,会导致ief边缘节点故障。
确认方法:
- 执行systemctl status edgecore显示服务状态异常,执行systemctl restart edgecore可能会显示服务不存在。
- 执行systemctl status edgelogger显示状态异常,执行systemctl restart edgelogger可能会显示服务不存在。
- 执行systemctl status edgemonitor显示状态异常,执行systemctl restart edgemonitor可能会显示服务不存在。
恢复方法:
请确保您的机器开机时是以正常模式进入的。另外,边缘节点异常下电极有可能会造成文件损坏或者丢失,请避免执行该类操作,如出现该问题,请。
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨
more