20. Juli 2025·8 Min. Lesezeit

Incident‑Runbook für No‑Code‑Apps: erkennen, triagieren, wiederherstellen

Nutze dieses Incident‑Runbook für No‑Code‑Apps, um Probleme schnell zu erkennen, Impact zu triagieren, sicher zurückzurollen, klar zu kommunizieren und Wiederholungen zu verhindern.

Was dieses Runbook ist und wann es zu verwenden ist

Ein Incident ist jedes unerwartete Problem, das Menschen daran hindert, deine App zu nutzen, sie quälend langsam macht oder Daten gefährdet. Bei No‑Code‑Apps kann sich das zeigen als plötzliche Login‑Fehler, nach einer Änderung kaputte Bildschirme, Hintergrund‑Automationen, die nicht mehr ausgelöst werden, API‑Fehler oder „erfolgreiche“ Workflows, die stillschweigend falsche Werte in die Datenbank schreiben.

Ein schriftliches Runbook verwandelt einen stressigen Moment in eine Reihe kleiner, klarer Schritte. Es reduziert Rätselraten, beschleunigt Entscheidungen (z. B. wann zurückgerollt wird) und sorgt dafür, dass alle dieselben Fakten teilen. Die meisten Verzögerungen während Incidents sind nicht technischer Natur. Sie entstehen durch Unsicherheit: Ist es echt? Wer führt? Was hat sich geändert? Was sagen wir den Nutzern?

Dieses Playbook ist für alle, die die App berühren, wenn etwas schiefgeht: Builder, die Änderungen ausliefern, Ops‑ oder Plattformverantwortliche, die Deployments und Zugriffe managen, Support‑Teams, die die ersten Meldungen hören, und Produkt‑ oder Business‑Owner, die Impact und Prioritäten bewerten.

Es ist bewusst schlank gehalten, auch für Teams, die auf Plattformen wie AppMaster bauen, wo es visuelle Logik, generierte Services und verschiedene Deployment‑Optionen geben kann.

Es deckt den kompletten Incident‑Kreislauf ab: erkennen und bestätigen, dass ein echtes Problem vorliegt, schnell triagieren, stabilisieren und wiederherstellen (inklusive Rollback‑Entscheidungen), während der Störung kommunizieren und anschließend eine kurze Nachbesprechung durchführen, damit dasselbe Problem weniger wahrscheinlich wieder auftritt.

Es behandelt nicht langfristiges Architektur‑Redesign, tiefe Sicherheitsforensik oder komplexe Compliance‑Prozeduren. Wenn du mit regulierten Daten oder kritischer Infrastruktur arbeitest, ergänze dieses Runbook um strengere Schritte.

Bevor etwas kaputtgeht: Basislinie und Rollen festlegen

Incidents wirken chaotisch, wenn du nicht weißt, wie „normal“ aussieht. Lege deine Basislinie fest, damit das Team echte Probleme schnell erkennt. Bei No‑Code‑Apps kommen frühe Signale meist aus einer Mischung von Plattform‑Health, Geschäftsmetriken und Meldungen von Menschen.

Schreibe die Signale auf, die du täglich beobachten wirst, nicht nur während Ausfällen. Häufige Signale sind Uptime, Fehlerrate, langsame Bildschirme, fehlgeschlagene Logins, Zahlungsfehler und Spitzen bei Support‑Tickets oder Nutzer‑Nachrichten.

Definiere Schweregrade in einfacher Sprache, sodass jeder sie anwenden kann:

SEV1: Die meisten Nutzer können die App nicht nutzen oder Geld/Sicherheit ist gefährdet.
SEV2: Eine Schlüssel‑Funktion ist kaputt, aber es gibt eine Umgehungslösung.
SEV3: Kleinere Probleme, begrenzte Nutzer oder kosmetische Bugs.

Setze Reaktionsziele, die Schwung erzeugen. Beispielziele: innerhalb von 5 Minuten bestätigen, erstes Update innerhalb von 15 Minuten posten und innerhalb von 60 Minuten stabilisieren anstreben (auch wenn die vollständige Behebung länger dauern kann).

Bestimme Rollen, bevor du sie brauchst. Nenne, wer einen Incident ausrufen kann, wer ihn leitet und wer als Backup einspringt, wenn diese Person offline ist. In AppMaster‑Teams ist das oft die Person, die die Business‑Process‑Logik besitzt, plus ein Backup, das Deployments oder Exporte durchführen kann.

Habe schließlich einen gemeinsamen Ort für Incident‑Notizen. Nutze Zeitstempel für jede Aktion (was sich änderte, wann, von wem), damit du die Geschichte später rekonstruieren kannst, ohne zu raten.

Erkennen und bestätigen: Ist das echt und wie schlimm ist es?

Bestätige den Impact, bevor du dich in Dashboards verirrst. Stelle eine klare Frage: Wer kann gerade was nicht tun? „Support kann Tickets nicht öffnen“ ist hilfreicher als „die App ist langsam“. Wenn möglich, reproduziere das Problem mit derselben Rolle und demselben Gerät wie der betroffene Nutzer.

Ermittle als Nächstes die Breite des Problems. Betrifft es ein Konto, ein Kundensegment oder alle? Mach schnelle Aufspaltungen: Region, Kontotyp, Web vs. Mobile und eine einzelne Funktion vs. die ganze App. In No‑Code‑Tools kann etwas global wirken, obwohl es tatsächlich eine Berechtigungsregel oder ein einzelner kaputter Bildschirm ist.

Überprüfe dann, was sich geändert hat. Schau 1–2 Stunden zurück nach einem Release, einem Konfig‑Toggle, einer Datenbankschema‑Bearbeitung oder einem Datenimport. Auf Plattformen wie AppMaster können Änderungen an Business‑Prozessen, Datenmodellen oder Auth‑Einstellungen viele Flows gleichzeitig beeinflussen, selbst wenn die UI noch normal aussieht.

Bevor du deine App beschuldigst, schließe externe Abhängigkeiten aus. E‑Mail/SMS‑Provider, Payment‑Dienste (z. B. Stripe) und Integrationen (Telegram, AWS‑Services, AI‑APIs) können ausfallen oder Ratenbegrenzungen haben. Wenn die App nur beim Versenden von Nachrichten oder beim Abbuchen scheitert, liegt die Ursache möglicherweise upstream.

Nutze eine einfache Entscheidungs‑Checkliste:

Monitoren, wenn der Impact gering ist und Fehler nicht steigen.
Jetzt mindern, wenn Nutzer von Kernaufgaben blockiert sind oder Daten gefährdet sind.
Einen Incident ausrufen, wenn das Problem weit verbreitet, zeitkritisch oder unklar ist.
Eskaliere, wenn Zahlungen, Authentifizierung oder Produktionsdaten betroffen sind.
Setze ein Check‑in‑Intervall (z. B. alle 15 Minuten), damit das Team nicht abschweift.

Sobald du Schweregrad und Umfang klassifiziert hast, kannst du vom „Ist es echt?“ zum „Was machen wir zuerst?“ übergehen, ohne zu raten.

Triage Schritt für Schritt (erste 30 Minuten)

Öffne sofort ein Incident‑Protokoll. Gib ihm einen einfachen Titel, der den Nutzer‑Impact benennt, nicht die vermutete Ursache (zum Beispiel „Checkout schlägt fehl für EU‑Kunden“). Notiere die Startzeit (erster Alarm oder erste Meldung). Dies wird der einzige Ort für Entscheidungen, Zeitstempel und Änderungen.

Weise Rollen zu, damit Arbeit sich nicht überschneidet. Selbst in kleinen Teams reduziert das Benennen von Verantwortlichen Fehler in Stresssituationen. Mindestens brauchst du:

Incident‑Lead: behält den Fokus, setzt Prioritäten, entscheidet über Containment vs. Rollback
Fixer: untersucht und wendet Änderungen an
Comms: postet Updates an Stakeholder und Support
Protokollant: protokolliert Aktionen, Zeiten und Ergebnisse

Schreibe zwei Dinge fest: was du sicher weißt und deine aktuelle Hypothese. „Bekannt“ könnte sein: Fehlerrate ist gestiegen, ein bestimmter Endpoint schlägt fehl, nur Mobile ist betroffen. Die Hypothese kann falsch sein, sollte aber die nächsten Tests leiten. Halte beides aktuell, während du lernst.

Solange die Lage instabil ist, setze ein 15‑Minuten‑Update‑Intervall. Wenn sich nichts geändert hat, sag das. Regelmäßige Updates stoppen Seitendiskussionen und verhindern doppelte „gibt’s Neuigkeiten?“-Nachfragen.

Wähle die erste Containment‑Aktion. Ziel ist, Schaden schnell zu reduzieren, auch wenn die Root‑Cause noch nicht klar ist. Typische Erstschritte sind das Pausieren von Hintergrundjobs, das Deaktivieren eines riskanten Feature‑Flags, das Limitieren des Traffics zu einem Modul oder das Wechseln zu einer bekannten sicheren Konfiguration. In AppMaster bedeutet das oft, einen bestimmten Flow im Business‑Process‑Editor auszuschalten oder einen UI‑Pfad temporär zu verbergen, der Fehler auslöst.

Wenn Containment innerhalb eines Update‑Fensters keine Verbesserung bringt, beginne parallel mit der Rollback‑Planung.

Erst stabilisieren: den Schaden begrenzen

Fehler schneller reproduzieren

Stelle die fehlerhafte Nutzerreise schnell nach und iteriere ohne lange Dev‑Zyklen.

Prototyp bauen

Sobald bestätigt ist, dass ein echter Incident vorliegt, wechsle vom „den Bug finden“ zum „die Blutung stoppen“. Stabilisieren verschafft Zeit. Es schützt außerdem Nutzer, Umsatz und Daten, während du weiter untersuchst.

Beginne mit der kleinsten Änderung, die den Schaden reduziert. Containment ist oft schneller als ein kompletter Fix, weil du ein neues Feature deaktivieren, einen Workflow pausieren oder einen riskanten Eingabepfad blockieren kannst, ohne neu zu bauen.

Wenn du vermutest, dass Daten korrumpiert werden, stoppe zuerst Schreibvorgänge. Das kann bedeuten, Formulare vorübergehend zu deaktivieren, Automationen, die Datensätze aktualisieren, zu pausieren oder einen API‑Endpoint zu blockieren, der Updates annimmt. Falsche Daten zu lesen ist unangenehm, aber falsche Daten zu schreiben vervielfacht den Bereinigungsaufwand.

Wenn Nutzer ausgesperrt sind, behandle Login als oberste Priorität. Prüfe Authentifizierungs‑Einstellungen und den Login‑Flow vor allem anderen. Jeder andere Fix ist langsamer, wenn Nutzer (und dein Team) keinen Zugang zur App haben.

Bei langsamer App oder Timeouts reduziere Last und entferne teure Pfade. Schalte schwere Bildschirme ab, pausiere Hintergrundjobs und deaktiviere neue Integrationen, die Anfragen in die Höhe treiben. In AppMaster kann Containment so einfach sein wie das Deaktivieren eines problematischen Business‑Prozesses oder das temporäre Entfernen einer UI‑Aktion, die eine kostspielige Kette anstößt.

Dokumentiere jede Aktion bewusst. Unter Druck verändern Teams Schritte oder heben Fixes versehentlich auf. Notiere jede Änderung und das Ergebnis.

Eine einfache Stabilisierungsequenz:

Stoppe Schreibvorgänge, wenn Korruption möglich ist, und bestätige, dass neue Datensätze nicht mehr verändert werden.
Deaktiviere das neueste Feature‑Flag, die Automation oder Integration, die in der Timeline auftaucht.
Schütze den Zugriff: stelle zuerst Login und Session‑Flows für Admins wieder her, dann für alle Nutzer.
Reduziere Last durch Pausieren von Batch‑Jobs und Entfernen des langsamsten Nutzerpfads.
Protokolliere jede Aktion mit Zeitstempel, Verantwortlichem und beobachtetem Effekt.

Das Ziel ist „sicher und nutzbar“, nicht „vollständig gelöst“. Sobald der Impact eingegrenzt ist, kannst du ruhig diagnostizieren und die richtige Rollback‑ oder Fix‑Entscheidung treffen.

Rollback‑Optionen und Risiko‑Checks

Zuverlässige interne Tools starten

Veröffentliche Kundenportale und Admin‑Panels, die sich bei Problemen schnell stabilisieren lassen.

Portal bauen

Wenn etwas kaputtgeht, zählt Geschwindigkeit, aber die sicherste Aktion gewinnt. Praktisch hast du meist drei Optionen: zurückrollen, forward fixen oder partiell zurücknehmen (ein Feature deaktivieren, während der Rest bleibt).

Sei zuerst klar, was „Rollback“ in deiner Umgebung bedeutet. Es kann heißen, die vorherige App‑Version zu deployen, eine Konfig‑Änderung rückgängig zu machen oder einen Datenbank‑Zustand wiederherzustellen. Auf Plattformen wie AppMaster kann eine „Version“ Backend‑Logik, Web‑UI, mobile Builds und Umgebungs‑Einstellungen umfassen.

Nutze diese Risiko‑Checks, um zu entscheiden, ob ein Rollback sicher ist:

Datenbankschema‑Änderungen: Ein Rollback kann fehlschlagen, wenn die alte Version andere Tabellen oder Felder erwartet.
Irreversible Schreibvorgänge: Rückerstattungen, Statusänderungen oder gesendete Nachrichten lassen sich nicht immer rückgängig machen.
Queued Jobs und Webhooks: Ältere Logik kann items erneut verarbeiten oder mit neuen Payloads scheitern.
Externe Abhängigkeiten: Zahlungs‑, E‑Mail/SMS‑ oder Telegram‑Integrationen können ihr Verhalten geändert haben.

Setze eine einfache Go/No‑Go‑Regel, bevor du etwas anfasst. Wähle 2–3 Metriken, die sich innerhalb von 10–15 Minuten nach der Aktion verbessern müssen, zum Beispiel Fehlerrate, Login‑Erfolg, Checkout‑Abschluss oder API‑Latenz. Wenn sie sich nicht in die richtige Richtung bewegen, stoppe und ändere die Strategie.

Plane auch den Rückweg des Rollbacks. Wisse, wie du es wieder rückgängig machst, falls die ältere Version neue Probleme verursacht: welcher Build erneut deployed werden muss, welche Konfiguration wieder angewendet wird und wer diese zweite Änderung genehmigt. Halte eine Person verantwortlich für die finale „Ship“‑Entscheidung, damit du nicht während des Vorgehens den Kurs wechselst.

Kommunikation während des Incidents

Schweigen verschlimmert Incidents. Nutze einen einfachen, wiederholbaren Weg, um Menschen informiert zu halten, während das Team untersucht.

Beginne mit internen Updates. Informiere zuerst die Personen, die Fragen erhalten werden, und diejenigen, die Blocker entfernen können. Halte es kurz und sachlich. In der Regel brauchst du:

Support oder Customer Success: was Nutzer sehen und was sie derzeit sagen sollen
Sales oder Account‑Teams: welche Accounts betroffen sind und was nicht versprochen werden darf
Builder/Engineering: was sich geändert hat, was zurückgerollt wird, wer daran arbeitet
Einen Exec‑Ansprechpartner: Impact, Risiko, nächster Update‑Zeitpunkt
Einen Owner, der externe Formulierungen freigibt

Bei externen Updates bleibe bei dem, was du weißt. Vermeide Ursache‑Mutmaßungen oder das Beschuldigen eines Anbieters. Nutzer wollen meist drei Dinge: Bestätigung, Impact und wann sie wieder ein Update bekommen.

Einfache Nachrichtenvorlagen

Behalte eine konsistente Statuszeile über alle Kanäle:

Status: Untersucht | Identifiziert | Abgemildert | Beobachtung | Gelöst
Impact: „Einige Nutzer können sich nicht einloggen“ oder „Zahlungen schlagen bei neuen Bestellungen fehl"
Workaround: „In 10 Minuten erneut versuchen“ oder „Nutze die Mobile‑App, während Web down ist“ (nur wenn wahr)
Nächstes Update: „Nächstes Update um 14:30 UTC"

Wenn Nutzer verärgert sind, bestätige zuerst das Problem und sei dann konkret: „Wir wissen, dass der Checkout für einige Kunden fehlschlägt. Wir rollen die letzte Änderung jetzt zurück. Nächstes Update in 30 Minuten.“ Versprich während des Incidents keine Deadlines, Gutschriften oder permanente Fixes.

Gelöst vs. Beobachtung

Deklariere gelöst nur, wenn das Hauptsymptom verschwunden ist und zentrale Prüfungen sauber sind (Logins, Kern‑Flows, Fehlerraten). Verwende Beobachtung, wenn du eine Änderung angewendet hast (z. B. Rollback oder Konfig‑Wiederherstellung), aber noch Zeit brauchst, um Wiederholungen auszuschließen. Sage immer, was du beobachtest, wie lange und wann das finale Update kommt.

Ursache diagnostizieren: schnelle Checks, die eingrenzen

Technische Schulden in Fixes vermeiden

Generiere sauberen Code neu, wenn sich Anforderungen ändern, und reduziere so chaotische Hotfixes später.

Jetzt starten

Sobald die Lage stabil ist, schalte vom Feuerlöschen auf das Sammeln der kleinsten Faktenmenge um, die die Symptome erklärt. Ziel ist nicht die perfekte Root‑Cause, sondern eine wahrscheinliche Ursache, auf die du handeln kannst, ohne den Incident zu verschlimmern.

Verschiedene Symptome deuten auf verschiedene Verdächtige hin. Langsame Seiten bedeuten oft langsame DB‑Abfragen, einen plötzlichen Traffic‑Spike oder ein langsames externes Service. Timeouts kommen von blockierten Prozessen, überlasteten Backends oder Integrationen, die zu lange warten. Eine Fehler‑ oder Retry‑Spitze hängt oft mit einer kürzlichen Änderung, fehlerhaften Eingaben oder einem upstream‑Ausfall zusammen.

Schnelle Checks (15 Minuten)

Führe eine echte Nutzerreise End‑to‑End mit einem normalen Testkonto durch. Das ist oft das schnellste Signal, weil es UI, Logik, Datenbank und Integrationen berührt.

Konzentriere dich auf eine Handvoll Prüfungen:

Reproduziere eine Reise: einloggen, die Schlüsselaktion durchführen, Ergebnis bestätigen.
Finde den langsamen/fehlerhaften Schritt: Seitenladezeit, API‑Call, DB‑Save, Webhook.
Prüfe kürzlich angelegte Daten: scanne die letzten 20–50 Datensätze auf Duplikate, fehlende Felder oder nicht passende Summen.
Validere Integrationen: letzte Zahlungsversuche (z. B. Stripe), Webhook‑Zustellungen und Messaging (E‑Mail/SMS oder Telegram).
Bestätige den Kontext der Änderung: was wurde kurz vor dem Anstieg releast, konfiguriert oder migriert?

Wenn du AppMaster benutzt, lässt sich das oft direkt auf einen Business‑Process‑Schritt, eine Data‑Designer‑Änderung oder eine Deployment‑Konfiguration zurückführen.

Entscheiden: Mitigation beibehalten oder forward fixen

Wenn die schnellen Checks einen klaren Schuldigen zeigen, wähle den sichersten Schritt: Mitigation beibehalten oder einen kleinen dauerhaften Fix anwenden. Entferne Rate‑Limits, Feature‑Toggles oder manuelle Workarounds erst, nachdem die Reise zweimal erfolgreich war und die Fehlerrate einige Minuten stabil geblieben ist.

Beispiel‑Szenario: ein fehlgeschlagenes Release während der Geschäftszeit

Es ist Dienstag, 10:15 Uhr. Ein Team liefert eine kleine Änderung an ein Kundenportal, das auf AppMaster läuft. Innerhalb weniger Minuten sehen Nutzer nach dem Login leere Seiten und neue Bestellungen kommen nicht mehr an.

Der Support bemerkt drei Tickets mit derselben Nachricht: „Login funktioniert, dann lädt das Portal nie.“ Gleichzeitig zeigen Monitoring‑Daten einen Anstieg von 500‑Fehlern auf der Web‑App und einen Rückgang erfolgreicher API‑Calls. Du behandelst das als echten Incident.

Der Incident‑Lead bestätigt schnell: Login als Testnutzer auf Desktop und Mobile versuchen und die Zeit des letzten Deploys prüfen. Der Zeitpunkt passt zum Release, also gehst du davon aus, dass die letzte Änderung involviert ist, bis das Gegenteil bewiesen ist.

Die ersten 30 Minuten könnten so aussehen:

Contain: Setze das Portal in den Wartungsmodus (oder deaktiviere temporär das betroffene Feature‑Flag), damit nicht mehr Nutzer den fehlerhaften Flow treffen.
Rollback entscheiden: Wenn der Fehler direkt nach dem Release begann und viele Nutzer betrifft, rolle zuerst zurück.
Kommunizieren: Kurzes internes Update posten (was kaputt ist, Impact, aktuelle Aktion, nächstes Update‑Zeitfenster). Den Kunden kurz informieren, dass man dran arbeitet.
Recover: Den letzten bekannten guten Build neu deployen (oder das spezifische Modul revertieren). Login, Dashboard‑Ladezeit und eine Kernaktion wie „Ticket erstellen“ oder „Bestellung aufgeben“ erneut testen.
Beobachten: Fehlerrate, Login‑Erfolg und Support‑Ticket‑Volumen 10–15 Minuten überwachen, bevor du als stabil meldest.

Um 10:40 Uhr sind die Fehler wieder normal. Du behältst die Metriken im Auge, während Support bestätigt, dass neue Tickets nachlassen.

Anschließend macht das Team eine kurze Review: Was hat es zuerst entdeckt (Alerts vs. Support), was hat verlangsamt (fehlender Owner, unklare Rollback‑Schritte) und was zu ändern ist. Eine häufige Verbesserung ist eine Release‑Smoke‑Test‑Checkliste für die drei wichtigsten Flows des Portals und ein dokumentierter One‑Click‑Rollback‑Schritt.

Häufige Fehler, die Incidents verschlimmern

Für den nächsten Vorfall vorbereiten

Halte Umgebungen und Deployments in AppMaster Cloud oder deiner eigenen Cloud organisiert bereit.

Projekt einrichten

Die meisten Incidents werden aus zwei Gründen schlimmer: Entweder lasse man das System weiter Schaden anrichten, während man untersucht, oder man ändert zu viele Dinge zu schnell. Dieses Runbook soll dich vor beidem schützen.

Eine Falle ist, zuerst zu untersuchen, während die App weiterhin fehlerhafte Daten schreibt. Wenn ein Workflow in einer Schleife läuft, eine Integration Duplikate postet oder ein Berechtigungsfehler falsche Nutzer Datensätze bearbeiten lässt, pausiere zuerst den betreffenden Prozess. In AppMaster kann das bedeuten, einen Business‑Process zu deaktivieren, eine Modul‑Integration abzuschalten oder vorübergehend den Zugriff einzuschränken, damit sich das Problem nicht ausbreitet.

Eine andere Falle ist das „Erraten“ beim Fixen. Wenn mehrere Leute gleichzeitig Einstellungen ändern, verlierst du die Timeline. Selbst kleine Änderungen zählen während eines Incidents. Einigt euch auf einen Treiber, führt ein einfaches Änderungsprotokoll und vermeide das Stapeln von Tweaks auf unklare Ursachen.

Wiederkehrende Fehler, die zu längeren Ausfallzeiten führen:

Zuerst untersuchen und später erst containen, während weiterhin falsche Schreibvorgänge oder Duplikate entstehen
Mehrere Änderungen gleichzeitig vornehmen ohne Notizen, sodass nicht erkennbar ist, was geholfen oder geschadet hat
Zögern mit der Kommunikation oder vage Updates senden, die mehr Fragen als Vertrauen erzeugen
Blindes Rollback ohne Prüfung des Datenbankzustands und ausstehender Jobs, E‑Mails oder Webhooks
Den Incident schließen, ohne eine klare Verifikations‑Checkliste abgearbeitet zu haben

Kommunikation ist Teil der Wiederherstellung. Teile, was du weißt, was du nicht weißt und wann das nächste Update kommt. „Wir rollen zurück und bestätigen in 15 Minuten, dass die Billing‑Events korrekt sind“ ist besser als „Wir sehen uns das an."

Schließe den Incident nicht nur weil die Fehler aufgehört haben. Verifiziere mit einer kurzen Checkliste: Laden die wichtigsten Bildschirme, speichern neue Datensätze korrekt, laufen kritische Automationen einmal und sind Backlogs (Queues, Retries, geplante Jobs) geleert oder sicher pausiert?

Kurze Checkliste, die du unter Druck abarbeiten kannst

Kernfunktionen schneller ausliefern

Füge Authentifizierung, Zahlungen und Messaging‑Module hinzu, ohne jede Integration per Hand zu coden.

No‑Code testen

Wenn etwas kaputtgeht, wird dein Gehirn versuchen, zehn Aufgaben gleichzeitig zu tun. Nutze diese Liste, um ruhig zu bleiben, Menschen zu schützen und den Service wiederherzustellen.

Pinne diesen Abschnitt an einen Ort, den dein Team wirklich sieht.

Bestätige, dass es echt ist und skaliere den Impact (5 Minuten): Prüfe, ob Alerts zu Nutzerberichten passen. Schreibe auf, was ausfällt (Login, Checkout, Admin‑Panel), wer betroffen ist und seit wann. Wenn möglich, reproduziere in einer sauberen Session (Inkognito oder Testkonto).

Nenne in einer Minute eine Incident‑Verantwortliche. Eine Person entscheidet, alle anderen unterstützen.

Stabilisieren und containen (10 Minuten): Stoppe die Blutung, bevor du die Root‑Cause jagst. Deaktiviere den riskanten Pfad (Feature‑Toggle, temporärer Banner, Queue‑Pausen) und teste eine Schlüsselreise End‑to‑End. Wähle die Reise, die dem Geschäft am meisten bedeutet, nicht die, die am einfachsten zu testen ist.
Service wiederherstellen (10–20 Minuten): Wähle die sicherste Maßnahme: Rollback zur letzten bekannten guten Version oder einen minimalen Fix anwenden. Auf Plattformen wie AppMaster kann das bedeuten, einen früheren Build neu zu deployen oder die letzte Änderung zu revertieren und dann Fehlerquoten und Antwortzeiten zu prüfen.
Kommunizieren (durchgehend): Poste kurze Status‑Updates mit Impact, Handlungsempfehlung für Nutzer und dem nächsten Update‑Zeitpunkt. Bereite Support ein zwei‑Satz‑Skript vor, sodass alle dasselbe sagen.
Sauber abschließen (bevor du es vergisst): Notiere, was passiert ist, was du geändert hast und wann der Service wiederhergestellt war. Weise Folgeaufgaben mit Ownern und Terminen zu (Monitoring‑Anpassung, Testlücke, Datenbereinigung, Folgefix).

Nach dem Incident: lernen, fixen und Wiederholungen verhindern

Ein Incident ist nicht vollständig „fertig“, wenn die App wieder läuft. Der schnellste Weg, zukünftige Ausfallzeiten zu reduzieren, ist, das Geschehene festzuhalten, solange es noch frisch ist, und die Erkenntnisse in kleine, konkrete Änderungen zu überführen.

Plane innerhalb von 2–5 Tagen ein kurzes Post‑Incident‑Review. Halte es fehlerfrei und pragmatisch. Ziel ist nicht, jemanden zu finden, der schuld ist, sondern das nächste Incident‑Handling zu erleichtern.

Schreibe einen Bericht, den jemand in Monaten noch lesen kann: was Nutzer sahen, wann du es entdeckt hast, was du versucht hast, was funktionierte und wann der Dienst wiederhergestellt war. Füge die Root‑Cause hinzu, falls bekannt, und notiere beitragende Faktoren wie fehlende Alerts, unklare Ownership oder verwirrende Rollout‑Schritte.

Mache aus Erkenntnissen konkrete Aufgaben mit Ownern und Terminen. Konzentriere dich auf die kleinsten Änderungen, die denselben Ausfall verhindern:

Schließe Monitoring‑Lücken (füge einen Alert oder Dashboard‑Check hinzu, der es früher erkannt hätte)
Ergänze ein Guardrail (Validierungsregel, Rate‑Limit, Default‑Feature‑Flag, Freigabeschritt)
Verbessere Tests für den riskanten Bereich (Login, Zahlungen, Datenimport, Berechtigungen)
Aktualisiere das Runbook mit den exakten Schritten, die du gebraucht hättest
Mach eine kurze Auffrischungsschulung für den On‑Call oder die App‑Owner

Wähle pro Incident mindestens eine Präventionsmaßnahme, auch wenn sie klein ist. „Jede Änderung an Rollen benötigt einen zweiten Reviewer“ oder „Datenmigrationen laufen zuerst in einer Staging‑Kopie“ können wiederkehrende Ausfälle verhindern.

Behalte dieses Runbook neben deinem Build‑ und Release‑Prozess. Wenn du mit AppMaster baust, notiere, wo jede App deployed ist (AppMaster Cloud, AWS, Azure, Google Cloud oder selbst gehostet), wer schnell redeployen kann und wer rollbacken darf. Wenn du einen zentralen Ort für diese Dokumentation willst, erleichtert es das, sie neben deinen AppMaster‑Projektnotizen (appmaster.io) aufzubewahren, damit sie in kritischen Minuten schnell zu finden ist.

FAQ

Verwende es immer dann, wenn ein unerwartetes Problem zentrale Aufgaben blockiert, die App unbenutzbar langsam macht oder falsche/unsichere Datenänderungen drohen. Wenn Nutzer sich nicht einloggen können, Zahlungen scheitern, Automationen ausfallen oder Datensätze falsch geschrieben werden, behandle es als Incident und arbeite das Runbook ab.

Beginne mit dem Nutzer‑Impact: Wer kann gerade was nicht tun, und seit wann? Reproduziere das Problem mit derselben Rolle und demselben Gerät und prüfe, ob es ein einzelnes Konto, ein Kundensegment oder alle betrifft, damit du nicht der falschen Ursache nachjagst.

Deklariere SEV1, wenn die meisten Nutzer blockiert sind oder Geld/Sicherheit/Daten gefährdet sind. SEV2 ist angebracht, wenn eine Schlüsselfunktion kaputt ist, aber eine Umgehungslösung existiert. SEV3 gilt für kleinere oder eng begrenzte Probleme. Schnell entscheiden ist wichtiger als perfekt entscheiden.

Wähle eine Person als Incident‑Lead, die finale Entscheidungen trifft. Dann weise einen Fixer, eine Kommunikationsverantwortliche und eine Protokollierende Person zu, damit niemand ungeordnet Dinge ändert. In kleinen Teams kann eine Person zwei Rollen übernehmen, aber die Rolle des Incident‑Leads sollte klar bleiben.

Containment heißt Schaden schnell stoppen, auch wenn die Ursache noch unklar ist. In AppMaster bedeutet das oft, einen bestimmten Business Process zu deaktivieren, eine UI‑Aktion vorübergehend zu verbergen oder eine Automation anzuhalten, die in eine Schleife läuft oder falsche Daten schreibt.

Rolleback, wenn der Fehler direkt nach einem Release auftrat und du eine bekannte gute Version hast, die den Dienst schnell wiederherstellt. Ein Forward‑Fix ist nur ratsam, wenn du eine kleine, risikoarme Änderung schnell verifizieren kannst, ohne weitere Ausfallzeiten zu riskieren.

Rollback ist riskant, wenn sich das Datenbankschema geändert hat, irreversible Schreibvorgänge stattgefunden haben oder ausstehende Jobs und Webhooks von älterer Logik erneut verarbeitet werden könnten. In solchen Fällen lieber zuerst stabilisieren und klären, was die ältere Version erwartet.

Stoppe zuerst Schreibvorgänge, wenn Datenkorruption möglich ist, denn neue falsche Einträge vervielfachen die Bereinigung. Praktisch heißt das: Formulare deaktivieren, Update‑Automationen pausieren oder Update‑Endpunkte blockieren, bis du sicher bist, dass neue Datensätze nicht mehr fehlerhaft verändert werden.

Sende kurze, sachliche Updates in festen Zeitintervallen mit dem, was betroffen ist, was du unternimmst und wann das nächste Update kommt. Vermeide Vermutungen zur Ursache oder Schuldzuweisungen an Anbieter; Nutzer und Stakeholder wollen vor allem Klarheit und verlässliche Zeitfenster.

Als „resolved“ deklarieren, wenn das Hauptsymptom weg ist und zentrale Prüfungen sauber sind (Login, primärer Workflow, Fehlerraten). Wenn du etwas behoben hast, aber noch Zeit zum Beobachten brauchst, nenne den Zustand „monitoring“ und sag, welche Metriken du wie lange beobachtest.