Monitoringsystem löst vermutlich Kernel-Panic aus

Auf mehreren Hostsystemen kam es in den letzten 3 Tagen gehäuft zu Kernel-Panics. Besonders betroffen waren KVMvcluster9, 6 und 7.

Unsere erste Vermutung war es, dass hier die Raid-Controller defekt sein könnten. Da das Problem aber auf mehreren Systemen auftrat und es äußerst unwahrscheinlich ist, dass plötzlich 3 Controller in 4 Tagen ausgefallen sein sollen, wenn zuvor in 10 Jahren nicht einer ausfiel, forschten wir weiter und tauschten nicht.

Wir vermuten nun die Ursache in der vor exakt 4 Tagen eingerichteten Monitoringsoftware, die wiederum regelmäßig auf die Steuerungssoftware der Raid-Controller zugreift und Werte zum Hardware-Raid und dem Controller ausliest. Dies scheint die Controller in der Intensität zu überlasten, wodurch das Betriebssystem nicht rechtzeitig Rückmeldungen vom Filesystem erhält und dadurch einen Kernel-Panic auslöst.

Wir haben das Raid Monitoring daher vorrübergehend für diese besonders betroffenen Hostsysteme deaktiviert und die jeweils neuste Adapter Firmware geflasht. Dadurch kam es zu zahlreichen kurzen Downtimes durch Abstürze und notwendige Neustarts. Wir hoffen auf Euer Verständnis.

Nun prüfen wir, ob das Problem dadurch dauerhaft behoben wird und suchen dann eine Lösung damit wir das Monitoring der Raid-Controller auch für diese Hostsysteme wieder aktivieren können.