Ausfallsicherheit ist (k)eine Wette

Beispiel 1: Strom

Beim Betreiber unseres Rechenzentrums mieten wir zwei voneinander unabhängige Stromkreise (A-Feed und B-Feed). Beide Stromkreise sind doppelt gegen Ausfälle abgesichert mit Dieselaggregaten und batteriebetriebenen USV-Systemen. Mit diesem Setup waren wir sehr zufrieden und fühlten uns immer sicher – bis der für unmöglich gehaltene Fehler eintrat: Kompletter Stromausfall auf der gesamten von uns gemieteten Fläche.

Beispiel 2: Bladecenter

Jedes unserer IBM Bladecenter besteht aus 14 Hardwareservern, die wiederrum die Systeme unserer Kunden beherbergen. Ein Bladecenter verfügt unter anderem über 4 Netzteile und zwei Netzwerkswitche. Jeder der 14 Server hat zwei Netzwerkschnittstellen, von der jede an einem der Switche angeschlossen ist. Egal ob Netzteil, Netzwerkinterface oder Switch kaputt geht, der Betrieb bleibt ungestört stabil. Klingt gut? Dachten wir auch! Und dennoch: Totalausfall der Netzkonnektivität eines Bladecenters.

Anspruch und Lernerfolg

Die in den letzten sieben Tagen erbrachte Servicequalität wird unserem Anspruch nicht gerecht und liegt weit unter dem Niveau, was wir den SysEleven-Faktor nennen. Wir werden vorerst die Installation neuer Kunden aussetzen und konzentrieren uns darauf, die Stabilität unserer Infrastruktur bis Ende des Jahres drastisch zu verbessern. Dazu werden wir folgende Maßnahmen umsetzen:

Erneute Prüfung der gesamten Infrastruktur
Wir werden unsere gesamte Infrastruktur mit Blick über den Tellerand auf weitere mögliche Gefahrenquellen hin untersuchen und neue Konzepte zur Sicherstellung der Verfügbarkeit erarbeiten.

Bessere Verteilung der Kundensysteme auf Racks
Bisher haben immer sehr darauf geachtet, dass Kundensysteme auf verschiedene Hardwareserver unserer private Cloud verteilt wurden. In Zukunft werden wir die Services soweit möglich zusätzlich auch auf verschiedene BladeCenter bzw. Racks verteilen.

Einzelüberprüfung jedes Kundensetups
In den kommenden Wochen werden wir jeden Kunden individuell ansprechen und gemeinsam nach Single Point of Failures in den Server-Setups suchen. Anschließend werden wir Änderungen vorschlagen.

Umstellung des Routings
Bereits kurzfristig werden wir unsere Internet-Upstram-Bandbreite von derzeit 2 GBit auf insgesamt 40 GBit erweitern und direkte Peerings am BCIX und DE-CIX einrichten.

Eigene USV je Rack?
Wir prüfen derzeit die Möglichkeit hinter die durch das RZ abgesicherten Stromfeeds eigene USV-Systeme zu installieren. Technisch spricht einiges gegen ein solche Lösung, wir lassen uns diese Option dennoch offen.

Ausbau des zweiten Standortes
Langfristig werden wir darüber nachdenken, ob wir unseren zweiten Standort weiter ausbauen und unseren Kunden damit ein komplett unabhängiges und eigenständiges Notfall-Rechenzentrum zur Verfügung stellen können.

Ausfallsicherheit ist (k)eine Wette

Zurück zum Titel des Blogposts: Unabhängig von Garantien und Verfügbarkeits-Angaben unserer Lieferanten werden wir mit der Konzentration auf die hier genannten Maßnahmen dafür sorgen, dass der SysEleven-Faktor wieder das ist, wofür wir stehen und was wir lieben: Hosting für Fortgeschrittene.

Traefik als Ingress Controller: Dynamik und Effizienz für Kubernetes

29. November 2024

Ausfallsicherheit ist (k)eine Wette

Beispiel 1: Strom

Beispiel 2: Bladecenter

Anspruch und Lernerfolg