Softwarequalität 24.02.2025, 09:25 Uhr

Wie Amazon denselben Fehler nie zweimal macht

Eine Fehlerkultur kann den Unterschied zwischen wiederholten Ausfällen und dauerhaftem Erfolg ausmachen. Amazon zeigt, wie organisierte Fehleranalyse zu Verbesserungen führt.
(Quelle: EMGenie)
"Erfolg besteht nicht darin, keine Fehler zu machen, sondern darin, den gleichen Fehler kein zweites Mal zu machen." Offenbar hat sich Amazon für seine Web Services (AWS) diesen Spruch von George Bernhard Shaw zu Herzen genommen. Im Juni 2023 waren hier viele Kunden von erhöhten Fehlerquoten und überdurchschnittlichen Latenzen betroffen. Insbesondere AWS Lambda war betroffen, was nicht nur die direkten Anwendungen, sondern auch andere verbundene Dienste wie ECS, AppRunner und Cloudwatch beeinträchtigte.
Jedes Mal, wenn solche Vorfälle eintreten, bietet sich die Möglichkeit zur sorgfältigen Analyse. Statt in Scham zu versinken, dokumentiert Amazon systematisch, was schiefgelaufen ist, um sicherzustellen, dass ähnliche Fehler in Zukunft vermieden werden.
Der zentralisierte Ansatz zur Analyse von Vorfällen wird durch das sogenannte Correction-of-Error-Dokument (CoE) unterstützt. Diese Dokumente sind meist zwischen vier und sechs Seiten lang und bieten eine umfassende Analyse der Situation, die zu einem signifikanten Kundenimpact führte. Zu den wesentlichen Komponenten eines CoE-Dokuments gehören der Titel, eine Zusammenfassung des Vorfalls, relevante Metriken und Grafiken, eine detaillierte Beschreibung der Auswirkungen, die Reaktion auf den Vorfall, eine chronologische Zeitleiste von Ereignissen und eine gründliche Untersuchung der Ursachen über die sogenannten '5 Why´s'. Dieser Ansatz fördert die tiefgreifende Untersuchung der Ursachen und hilft bei der Festlegung spezifischer Maßnahmen zur Vermeidung ähnlicher Vorfälle in der Zukunft.
Ein weiteres bemerkenswertes Merkmal der CoE-Prozesse bei Amazon ist die betonte Teamkommunikation während der Erstellung des Dokuments. Das Schreiben eines CoEs wird nicht als Bestrafung betrachtet, sondern als wertvolle Gelegenheit zur Verbesserung. Es zeigt, dass sowohl Ingenieure als auch Manager die Verantwortung übernehmen, um wertvolle Erkenntnisse zu gewinnen, und bietet eine transparente Plattform, um voneinander zu lernen.
Die Vorteile der Einführung von CoEs in die Unternehmenskultur sind erheblich. Sie fördern nicht nur die kontinuierliche Verbesserung, sondern ermöglichen es auch, einen umfassenden Überblick über vergangene Probleme zu erhalten. Durch das Teilen und Diskutieren dieser Dokumente können ganze Teams und letztendlich das Unternehmen als Ganzes aus vorangegangenen Herausforderungen profitieren.


Das könnte Sie auch interessieren