有两次,当我使用4x1080ti完成训练模型时,服务器发生故障。为什么服务器崩溃?NVRM:RmInitAdapter失败
我得到了sysylog,发现Nvidia驱动程序或GPU有问题。
SYSLOGS:(以及nvidia-bug-report.log)
[第二个]
9月6日21点11分41秒的GPU-8 - 服务器 - intesight内核:[31429.221258] NVRM: RmInitAdapter失败! (的0x30:为0xFFFF:682)
9月6日21时11分41秒的GPU-8 - 服务器 - intesight内核:[31429.221337] NVRM: rm_init_adapter失败设备支承次编号0
9月6日21时13 :54 gpu-8-server-intesight内核:[31562.154256] NVRM: RmInitAdapter失败! (的0x30:为0xFFFF:682)
9月6日21点13分54秒的GPU-8 - 服务器 - intesight内核:[31562.154306] NVRM: rm_init_adapter失败设备支承次编号1
[该第一酮]
9月6日2点48分四十秒GPU -8-服务器intesight内核:[557998.990374] NVRM: GPU在PCI:0000:04:00:GPU-bc54db68-a3cb-54e9- 7287-b95c69e41cf1
9月6日2点48分四十秒GPU -8-服务器intesight内核:[557998.990375] NVRM: GPU板编号:
9月6日2点48分四十秒GPU -8-服务器intesight内核:[557998.990376 ] NVRM: Xid(PCI:0000:04:00):79,GPU已经从总线上掉下来。
Sep 6 02:48:40 gpu-8-server-intesight内核:[557998.990377] NVRM: 0000:04:00.0的GPU已经从总线上掉下来了。 GPU是在板上的。我们可以在GPU上运行GPU。
Sep 6 02:48:40 gpu-8-server-intesight内核:[557998.990655] NVRM:A GPU崩溃转储已创建。如果可能的话,请运行
9月6日2时48分40秒的GPU-8 - 服务器 - intesight内核:[557998.990655] NVRM: nvidia-bug-report.sh为根
月之前收集这些数据6 02:48:40 gpu-8-server-intesight内核:[557998.990655] NVRM: NVIDIA内核模块已卸载。
Sep 6 02:48:41 gpu-8-server-intesight kernel:[557999.884383] NVRM: 0000:04:00.0的GPU已经从总线上掉下来了。
Sep 6 02:48:41 gpu-8-server-intesight内核:[557999.901942] NVRM:A GPU崩溃转储已创建。如果可能的话,请运行
9月6日2时48分41秒的GPU-8 - 服务器 - intesight内核:[557999.901942] NVRM: nvidia-bug-report.sh为根
月之前收集这些数据6 02:48:41 gpu-8-server-intesight内核:[557999.901942] NVRM: NVIDIA内核模块已卸载。
Sep 6 02:48:41 gpu-8-server-intesight内核:[558000.356948] NVRM: RmInitAdapter失败! (的0x30:为0xFFFF:682)
9月6日2点48分41秒的GPU-8 - 服务器 - intesight内核:[558000.444379] NVRM: rm_init_adapter失败设备支承次编号0
9月6日2时48 :45 GPU -8-服务器intesight内核:[558004.604173] NVRM: 的request_irq()失败(-22)
9月6日2点48分48秒的GPU-8 - 服务器 - intesight内核:[558007.497475] NVRM: RmInitAdapter失败! (0×23:0x56储存:468)
9月6日2点48分48秒的GPU-8 - 服务器 - intesight内核:[558007.497489] NVRM: rm_init_adapter轴承次编号0
失败设备09月06二点48分:50 GPU -8-服务器intesight内核:[558008.878985] NVRM: 的request_irq()失败(-22)
9月6日2时48分53秒的GPU-8 - 服务器 - intesight内核:[558011.735642] NVRM: RmInitAdapter失败! (0×23:0x56储存:468)
9月6日2时48分53秒的GPU-8 - 服务器 - intesight内核:[558011.735658] NVRM: rm_init_adapter轴承次编号0
失败设备09月06二点48分:54 GPU -8-服务器intesight内核:[558013.108772] NVRM: 的request_irq()失败(-22)
9月6日2点48分55秒的GPU-8 - 服务器 - intesight内核:[558013.757168] BUG: 0000000132081000无法处理内核寻呼请求
Sep 6 02:48:55 gpu-8-server-intesight内核:[558013。 757173] IP:[] kmem_cache_alloc + 0x77/0x1f0
9月6日2时48分55秒的GPU-8的服务器intesight内核:558013.757175] PGD 10357d8067 PUD 0
Z.Lin,谢谢你的说明 – zilong