2014-01-25 53 views
0

我有一个崩溃的服务器。服务器运行少量(3-5个)VMware机器。当我启动一个新的虚拟机时,它有时会崩溃。 syslog或vmware日志中没有消息。我在控制台上看到的是启动消息。没有系统日志消息的Linux崩溃

该系统具有32Gb RAM。每个虚拟机使用2-4Gb。我怀疑内存问题,但memtest86的全面运行并没有显示任何问题。

关于如何捕捉事故原因的任何建议?

+0

使用也'dmesg',看看其它文件下'在/ var /日志/'....和尝试的密集计算(例如像一个内核编译'使-j 6' ....)直接在服务器上(不通过虚拟机);几年前,我在没有* memtest86的笔记本电脑上发现了内存问题*找到它们......(只是借用了一些其他内存来查明);也看温度(用'yacpi') –

回答

1

您可以使用内核模块'netconsole'将内核printk消息发送到远程系统日志服务器。

然后,您可以检查远程系统日志服务器中的日志消息,如果机器崩溃,则发生事件。

简介:通过UDP

该模块的日志printk的内核消息让 问题的调试,其中盘日志记录失败和串行控制台是不切实际的。

它可以内置或作为模块使用。作为一个内置的网络控制台,net​​console在NIC卡后立即初始化,并尽可能快地启动指定接口 。虽然这不允许 捕获早期内核恐慌,但它确实捕获了大部分启动过程。检查内核文件的详细资料: https://www.kernel.org/doc/Documentation/networking/netconsole.txt