更新时间:2022-08-31 gmt 08:00
为什么exec进入容器后执行gpu相关的操作报错?-凯发k8国际娱乐官网入口
问题现象:
exec进入容器后执行gpu相关的操作(例如nvidia-smi、使用tensorflow运行gpu训练任务等)报错“cannot open shared object file: no such file or directory”。
问题原因:
安全容器内的cuda库位置为/usr/local/nvidia/lib64,您需要添加/usr/local/nvidia/lib64到ld_library_path,才能正确地找到cuda库。
解决方法:
使用kubectl exec或者前端console登录进入带gpu的容器时,先执行命令export ld_library_path=$ld_library_path:/usr/local/nvidia/lib64,然后再执行其他gpu相关的操作命令。
父主题:
意见反馈
文档内容是否对您有帮助?
提交成功!非常感谢您的反馈,我们会继续努力做到更好!
您可在查看反馈及问题处理状态。
系统繁忙,请稍后重试
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨
more