Neues Monitoring-System – Rollout auf den ersten 50 Hostsystemen erfolgt

Wir testen aktuell ein neues, wieder selbstentwickeltes, Monitoringsystem mit 50 großen Dual-Sockel Hostsystemen aus den Bereichen Gamehosting und Virtual-Hosting und überwachen damit über 1400 CPU-Cores und 8 TB ( 8000 GB ) RAM.
 
Wir können weit über 500 Parameter (z.B. Temperaturen, Auslastung, Smart-Werte, Zugriffszeiten, usw) auf den Hostnodes erfassen und auswerten und werden bei Bedarf gewarnt. Alle Vorfälle und Ereignisse werden gespeichert und sind auch später noch abrufbar.

Zusammenhänge von Störungen besser erkennbar

Stieg vor einem Systemausfall z.B. die RAM-Last oder die CPU-Auslastung an, wurden die CPUs vorher besonders heiß, gab es auffällig viele i/o Zugriffe ? Alle diese Fragen können wir nun explizit klären und Ursachen für Störungen noch viel besser erkennen.

Oder klagten z.B. Kunden über einen nicht funktionierenden FTP-Zugang, der aber bei unseren Tests etwas später, wieder funktioniert, können wir diese Aussagen nun genau validieren.

Ebenso wenn Gameserver-Kunden über Lags und damit ein schlechtes Spielerlebnis zu bestimmten Zeiten klagen, können wir nun genau die Ursache herausfiltern und dann abstellen, selbst wenn zum Zeitpunkt der Prüfung das Hostsystem komplett unausgelastet erscheint. Ein Blick in die erfassten Daten genügt.

Die Serverfarm wird transparent & Wir noch besser

Mit Hilfe des neuen Monitoring-Systems konnten wir z.B. validieren ob unsere Freischaltungspläne einhalten, sodass wir im Durchschnitt wie geplant  25 % des verbauten Arbeitsspeichers nicht verwenden und die Systeme damit ausreichend große Reserven haben. Im Schnitt sind pro Hostsystem satte 64 GB von 256 GB Arbeitsspeicher als Reserve verfügbar.

Ebenso stellten wir durch Erfassung verschiedener Temperaturparameter fest, dass keines unserer Testsysteme – optimal – nicht heißer als 55 Grad unter maximaler Belastung zur Spitzenzeit z.B. Abends und am Wochenende wird.  Dual Xeon Systeme mit einer TDP von über 300W können schnell überhitzen und würden dann gedrosselt.

Auch die Auslastung des Netzwerkes wird tiefgehend ausgewertet und überwacht. Zuvor überwachten wir diese über die API unserer Switches nur direkt an den Uplinks. Mit dem neuen System können wir die Auslastung direkt auf den Hostsystemen erfassen und genau analysieren. Das hilft bei der Erkennung von Latenzproblemen oder illegalen Aktivitäten.

Worauf basiert die neue Software ?

Die neue Software basiert auf einer Kombination aus Prometheus und Grafana und ersetzt damit unsere bisherige Monitoring-Lösung, die wir seit 2016 einsetzten. Die notwendigen Skripte stammen aus einer Eigenentwicklung.

Was kam bisher zum Einsatz ?

Die alte Lösung, ebenfalls eine Eigenentwicklung, bot uns viel weniger Möglichkeiten und nur eine grobe Übersicht über alle Systeme (Einfaches Kachel-System welches in Form von roten Kacheln und dem Versand von eMails auf Probleme hinwies). Das neue System bietet die passenden – und vor allem grenzenlose – Möglichkeiten, um unsere inzwischen doppelt so große Serverfarm mit über 3800 CPU-Cores und 20 TB RAM zu überwachen.