天津大学集群问题¶
问题复现
从下图可以看出有很多的任务处于数据同步关闭的一个状态
问题排查
查看k8s集群的状态,发现一下pod处于异常状态,这些异常的pod只能全部删除重建 需要查看一下异常pod的详细信息
问题出现
- 以上可以看到pod在创建编号为9的gpu出现报错,导致这样的情况可能就是gpu出问题了
- 接下来可以检查这个pod所在的机器上的gpu,看是否出现问题
- 可以通过 nvidia-smi -L 命令来查看
检查gpu
- 出现以下情况,尝试重启看看是否能修复
天津大学集群gpu硬件损坏
GPU损坏
- 可以通过nvidia-smi -L 查看gpu情况
nvidia-smi
Unable to determine the device handle for GPU 0000:89:00.0: Unknown Error
感觉是这块卡 0000:89:00.0 出问题了。然后去执行下 dmesg 看看情况:
$ dmesg -T
[Mon May 9 20:37:33 2022] xhci_hcd 0000:89:00.2: PCI post-resume error -19!
[Mon May 9 20:37:33 2022] xhci_hcd 0000:89:00.2: HC died; cleaning up
[Mon May 9 20:37:34 2022] nvidia-gpu 0000:89:00.3: i2c timeout error ffffffff
[Mon May 9 20:37:34 2022] ucsi_ccg 6-0008: i2c_transfer failed -110
$ nvidia-smi drain -p 0000:89:00.0 -m 1
Successfully set GPU 00000000:89:00.0 drain state to: drainin