Hardwareausfälle werden zur Herausforderung im KI-Betrieb

6. März 2026

Quelle: Brian Penny, Pixabay

Der KI-Betrieb auf Kubernetes erfordert den Aufbau zuverlässiger Engineering-Stacks. Denn GPU-Ausfälle werden zum Problem. Bei 25.000 GPUs fällt die Hardware durchschnittlich alle 2,5 Stunden aus. Bei 100.000 GPUs entspricht dies mehrere Ausfälle pro Stunde, nicht gelegentlich, sondern ständig – und das ist keine Hypothese.

OpenAI hat GPT-4 auf 25.000 A100s trainiert, die von Kubernetes verwaltet werden. xAI betreibt 100.000 H100s. Die Flotte von Meta ist sogar noch größer. Bei dieser Größenordnung ist die Lösung nicht einfach bessere Hardware. Erforderlich sind maßgeschneiderte Operatoren, die jede GPU als individuell verfolgtes Asset behandeln, mit automatisierter Quarantäne.

Bei einem Ausfall wird ein 100-Terabyte-Trainingsstatus als Checkpoint gespeichert und innerhalb von Minuten auf fehlerfreien Knoten fortgesetzt. Auf diese Weise gelingt es, eine Auslastung von 97 Prozent aufrechtzuerhalten, wenn die Infrastruktur ständig ausfällt.

Meta hat etwas Schlimmeres als Abstürze entdeckt: stille Datenverfälschung. Eine GPU berechnet die falsche Antwort, und die Überwachung erkennt dies nicht. Bei einer Flotte in dieser Größenordnung ist also davon auszugehen, dass irgendwo im Cluster immer etwas falsch berechnet wird. Meta hat einen speziellen Reliability-Stack entwickelt, um dies zu erkennen, einschließlich einer Plattform zur Ursachenanalyse, die täglich Zehntausende von Diagnosen durchführt.

Im KI-Maßstab sind Ausfälle der Normalzustand

Die Kluft zwischen „Wir betreiben Kubernetes” und „Wir betreiben KI auf Kubernetes” ist nicht inkrementell, sie ist architektonisch. Die meisten Teams behandeln GPU-Ausfälle als Ausnahmefälle.

Im KI-Maßstab sind Ausfälle jedoch der Normalzustand. Ein Cluster benötigt benutzerdefinierte Health-Operatoren, nicht nur eine automatische Reparatur der Knoten. Erforderlich ist eine Neuverteilung des Workloads, die innerhalb von Sekunden erfolgt, nicht über Tickets.

Ein einzelner Kubernetes-Cluster degradiert etwa 5.000 Knoten. KI-Training übertrifft dies bei weitem. Unternehmen benötigen eine Cluster-Föderation oder eine Managementebene, die ihre Flotte als ein einziges System behandelt.

Teams, die ernsthafte KI-Infrastrukturen auf Kubernetes aufbauen, führen nicht einfach kubectl aus und hoffen auf das Beste, sondern sie bauen darauf zuverlässige Engineering-Stacks auf. Kubernetes ist zum KI-Betriebssystem avanciert, aber das Betriebssystem kann nur der Ausgangspunkt sein.

Sebastian Scheele ist CEO und Co-Gründer von Kubermatic.

Kubermatic

Hardwareausfälle werden zur Herausforderung im KI-Betrieb

Im KI-Maßstab sind Ausfälle der Normalzustand

Lesen Sie auch