NVRM：RmInitAdapter失败

有两次，当我使用4x1080ti完成训练模型时，服务器发生故障。为什么服务器崩溃？NVRM：RmInitAdapter失败

我得到了sysylog，发现Nvidia驱动程序或GPU有问题。

[第二个]

9月6日21点11分41秒的GPU-8 - 服务器 - intesight内核：[31429.221258] NVRM： RmInitAdapter失败！（的0x30：为0xFFFF：682）

9月6日21时11分41秒的GPU-8 - 服务器 - intesight内核：[31429.221337] NVRM： rm_init_adapter失败设备支承次编号0

9月6日21时13 ：54 gpu-8-server-intesight内核：[31562.154256] NVRM： RmInitAdapter失败！（的0x30：为0xFFFF：682）

9月6日21点13分54秒的GPU-8 - 服务器 - intesight内核：[31562.154306] NVRM： rm_init_adapter失败设备支承次编号1

[该第一酮]

9月6日2点48分四十秒GPU -8-服务器intesight内核：[557998.990374] NVRM： GPU在PCI：0000：04：00：GPU-bc54db68-a3cb-54e9- 7287-b95c69e41cf1

9月6日2点48分四十秒GPU -8-服务器intesight内核：[557998.990375] NVRM： GPU板编号：

9月6日2点48分四十秒GPU -8-服务器intesight内核：[557998.990376 ] NVRM： Xid（PCI：0000：04：00）：79，GPU已经从总线上掉下来。

Sep 6 02:48:40 gpu-8-server-intesight内核：[557998.990377] NVRM： 0000：04：00.0的GPU已经从总线上掉下来了。 GPU是在板上的。我们可以在GPU上运行GPU。

Sep 6 02:48:40 gpu-8-server-intesight内核：[557998.990655] NVRM：A GPU崩溃转储已创建。如果可能的话，请运行

9月6日2时48分40秒的GPU-8 - 服务器 - intesight内核：[557998.990655] NVRM： nvidia-bug-report.sh为根

月之前收集这些数据6 02:48:40 gpu-8-server-intesight内核：[557998.990655] NVRM： NVIDIA内核模块已卸载。

Sep 6 02:48:41 gpu-8-server-intesight kernel：[557999.884383] NVRM： 0000：04：00.0的GPU已经从总线上掉下来了。

Sep 6 02:48:41 gpu-8-server-intesight内核：[557999.901942] NVRM：A GPU崩溃转储已创建。如果可能的话，请运行

9月6日2时48分41秒的GPU-8 - 服务器 - intesight内核：[557999.901942] NVRM： nvidia-bug-report.sh为根

月之前收集这些数据6 02:48:41 gpu-8-server-intesight内核：[557999.901942] NVRM： NVIDIA内核模块已卸载。

Sep 6 02:48:41 gpu-8-server-intesight内核：[558000.356948] NVRM： RmInitAdapter失败！（的0x30：为0xFFFF：682）

9月6日2点48分41秒的GPU-8 - 服务器 - intesight内核：[558000.444379] NVRM： rm_init_adapter失败设备支承次编号0

9月6日2时48 ：45 GPU -8-服务器intesight内核：[558004.604173] NVRM：的request_irq（）失败（-22）

9月6日2点48分48秒的GPU-8 - 服务器 - intesight内核：[558007.497475] NVRM： RmInitAdapter失败！（0×23：0x56储存：468）

9月6日2点48分48秒的GPU-8 - 服务器 - intesight内核：[558007.497489] NVRM： rm_init_adapter轴承次编号0

失败设备09月06二点48分：50 GPU -8-服务器intesight内核：[558008.878985] NVRM：的request_irq（）失败（-22）

9月6日2时48分53秒的GPU-8 - 服务器 - intesight内核：[558011.735642] NVRM： RmInitAdapter失败！（0×23：0x56储存：468）

9月6日2时48分53秒的GPU-8 - 服务器 - intesight内核：[558011.735658] NVRM： rm_init_adapter轴承次编号0

失败设备09月06二点48分：54 GPU -8-服务器intesight内核：[558013.108772] NVRM：的request_irq（）失败（-22）

9月6日2点48分55秒的GPU-8 - 服务器 - intesight内核：[558013.757168] BUG： 0000000132081000无法处理内核寻呼请求

Sep 6 02:48:55 gpu-8-server-intesight内核：[558013。 757173] IP：[] kmem_cache_alloc + 0x77/0x1f0

9月6日2时48分55秒的GPU-8的服务器intesight内核：558013.757175] PGD 10357d8067 PUD 0

来源

2017-09-08 zilong

Z.Lin，谢谢你的说明 – zilong

我们有过这样的问题。从我可以告诉你有一个非常类似的设置与多个GPU和一个X99主板。我们设法通过在引导内核参数中设置pcie_aspm=off来减轻错误。我您搜索您所提供的NVIDIA错误报告日志“ASPM”，你会发现以下内容：

[0.167842] ACPI FADT声明的系统不支持的PCIe ASPM，所以禁用它

[0.278085] acpi PNP0A03：03：FADT表示ASPM不受支持，使用BIOS配置

[0。282583] acpi PNP0A08：00：FADT指示ASPM不受支持，使用BIOS配置

[2.795337] r8169 0000：0a：00.0：无法禁用ASPM;操作系统没有ASPM控制

我们的GPU服务器目前仍然存在一些问题，但这可能会有所帮助。

我最初发现这个thread

UPDATE这样的想法：我们仍然得到偶尔的RmInitAdapter消息，但我们没有任何稳定性问题了。为了记录我们现在运行NVIDIA的387.34驱动程序，我们有以下引导参数：

pcie_aspm=off rcutree.rcu_idle_gp_delay=1

作为一个侧面说明，我们也有一个基于X299主板上的新的四GPU框，我们有类似的问题。

来源

2017-11-08 12:56:33

NVRM：RmInitAdapter失败

回答

相关问题