20 lip 2025·7 min czytania

Runbook incydentu dla aplikacji no-code: wykrywaj, triage’uj, przywracaj

Użyj tego runbooka dla aplikacji no-code, by szybko wykrywać problemy, triage’ować wpływ, bezpiecznie cofać zmiany, komunikować się jasno i zapobiegać powtórkom.

Czym jest ten runbook i kiedy go użyć

Incydent to każdy nieoczekiwany problem, który uniemożliwia korzystanie z aplikacji, sprawia, że jest ona bardzo wolna, lub naraża dane. W aplikacjach no-code może to wyglądać jak nagłe błędy logowania, zepsute ekrany po zmianie, automatyzacje tła, które przestały działać, błędy API, lub „udane” workflowy, które po cichu zapisują błędne wartości w bazie.

Spisany runbook zamienia stresującą sytuację w zestaw małych, jasnych działań. Redukuje zgadywanie, przyspiesza decyzje (jak rollback) i pomaga wszystkim mieć te same fakty. Większość opóźnień podczas incydentów nie jest techniczna — wynika z niepewności: czy to prawdziwe? kto prowadzi? co się zmieniło? co powiedzieć użytkownikom?

Ten playbook jest dla każdego, kto ma do czynienia z aplikacją, gdy coś idzie nie tak: twórców wprowadzających zmiany, właścicieli operacji lub platformy zarządzających wdrożeniami i dostępami, zespołów wsparcia, które słyszą pierwsze zgłoszenia, oraz właścicieli produktu lub biznesu oceniających wpływ i priorytety.

Jest świadomie lekki i przydatny także dla zespołów budujących na platformach takich jak AppMaster, gdzie możesz mieć logikę wizualną, generowane serwisy i wiele opcji wdrożeniowych.

Obejmuje cały cykl incydentu: wykrycie i potwierdzenie problemu, szybkie triage, stabilizację i odzyskanie (w tym decyzje o rollbacku), komunikację podczas przerwy, a potem krótki przegląd po incydencie, żeby ten sam problem występował rzadziej.

Nie obejmuje długoterminowego przeprojektowania architektury, dogłębnej analizy bezpieczeństwa ani złożonych procedur zgodności. Jeśli przetwarzasz dane regulowane lub krytyczną infrastrukturę, dodaj surowsze kroki do tego runbooka.

Zanim coś się zepsuje: ustal bazę i role

Incydenty wydają się chaotyczne, gdy nie wiesz, jak wygląda „normalnie”. Zdefiniuj swoją bazę, żeby zespół szybko dostrzegł prawdziwe problemy. W aplikacji no-code wczesne sygnały zwykle pochodzą z mieszanki zdrowia platformy, metryk biznesowych i zgłoszeń od ludzi.

Zapisz sygnały, które będziesz obserwować codziennie, nie tylko podczas awarii. Powszechne to: dostępność, wskaźnik błędów, wolne ekrany, nieudane logowania, błędy płatności i skoki w liczbie zgłoszeń do supportu lub wiadomości od użytkowników.

Zdefiniuj prosty język dotyczący powagi, żeby każdy mógł go użyć:

SEV1: Większość użytkowników nie może korzystać z aplikacji lub pieniądze/bezpieczeństwo są zagrożone.
SEV2: Kluczowa funkcja jest uszkodzona, ale istnieje obejście.
SEV3: Drobne problemy, ograniczeni użytkownicy lub błędy kosmetyczne.

Ustal cele reakcji, które wytworzą tempo działań. Przykładowe cele: potwierdzenie w ciągu 5 minut, pierwsza aktualizacja w 15 minut, i dążenie do stabilizacji w 60 minut (nawet jeśli pełna naprawa zajmie dłużej).

Zdecyduj o rolach zanim będą potrzebne. Wskaż, kto może ogłosić incydent, kto go prowadzi i kto jest zastępcą, jeśli ta osoba jest offline. W zespołach AppMaster często jest to właściciel logiki Business Process plus osoba zastępcza, która potrafi obsłużyć wdrożenia lub eksporty.

Na koniec, trzymaj jedno współdzielone miejsce na notatki z incydentu. Używaj znaczników czasu dla każdego działania (co się zmieniło, kiedy, przez kogo), żeby później odtworzyć historię bez zgadywania.

Wykryj i potwierdź: czy to realne i jak poważne

Potwierdź wpływ, zanim utkniesz na dashboardach. Zadaj jedno jasne pytanie: kto nie może czego zrobić teraz? „Support nie może otwierać zgłoszeń” jest bardziej użyteczne niż „aplikacja jest wolna”. Jeśli możesz, odtwórz problem przy użyciu tej samej roli i urządzenia, co dotknięty użytkownik.

Następnie ustal zasięg. Czy to jedno konto, segment klientów, czy wszyscy? Zrób szybkie podziały: region, typ konta, web vs mobile, jedna funkcja vs cała aplikacja. W narzędziach no-code coś może wyglądać na globalne, gdy w rzeczywistości to reguła uprawnień lub pojedynczy zepsuty ekran.

Potem sprawdź, co się zmieniło. Przejrzyj ostatnie 1–2 godziny pod kątem release’u, przełącznika konfiguracji, edycji schematu bazy lub importu danych. Na platformach takich jak AppMaster zmiany w procesach biznesowych, modelach danych lub ustawieniach uwierzytelniania mogą wpływać na wiele przepływów naraz, nawet jeśli UI wygląda poprawnie.

Zanim obwinisz aplikację, wyklucz zależności zewnętrzne. Dostawcy email/SMS, płatności (jak Stripe) i integracje (Telegram, usługi AWS, API AI) mogą zawieść lub zaczynać throttle. Jeśli aplikacja psuje się tylko przy wysyłce wiadomości lub obciążaniu kart, przyczyną może być problem zewnętrzny.

Użyj prostego checklistu decyzyjnego:

Monitoruj, jeśli wpływ jest niewielki i błędy nie rosną.
Zminimalizuj teraz, jeśli użytkownicy są zablokowani w kluczowych zadaniach lub dane są zagrożone.
Ogłoś incydent, jeśli problem jest szeroki, pilny lub niejasny.
Eskaluje(j), jeśli problem dotyczy płatności, uwierzytelniania lub danych produkcyjnych.
Ustal czas kontroli (na przykład co 15 minut), żeby zespół nie odpłynął.

Gdy skategoryzujesz powagę i zakres, możesz przejść od „czy to realne?” do „co robimy najpierw?” bez zgadywania.

Triage krok po kroku (pierwsze 30 minut)

Otwórz rekord incydentu natychmiast. Nadaj mu prosty tytuł, który opisuje wpływ na użytkownika, a nie podejrzaną przyczynę (np. „Brak działania checkoutu dla klientów z UE”). Zapisz czas rozpoczęcia (pierwszy alert lub pierwsze zgłoszenie). To stanie się jedynym miejscem decyzji, znaczników czasu i zmian.

Przydziel role, żeby prace się nie dublowały. Nawet w małym zespole wskazanie właścicieli zmniejsza błędy pod presją. Minimum to:

Incident lead: utrzymuje fokus, ustala priorytety, decyduje o contain vs rollback
Fixer: bada i wprowadza zmiany
Comms: publikuje aktualizacje dla interesariuszy i supportu
Note taker: zapisuje działania, czasy i wyniki

Zapisz dwie rzeczy: co wiesz na pewno i jaka jest twoja aktualna hipoteza. „Wiadomo” może być: wskaźnik błędów wzrósł, konkretny endpoint zwraca błąd, tylko mobile jest dotknięte. Hipoteza może być błędna, ale powinna kierować następnym testem. Aktualizuj obie, gdy pojawią się nowe informacje.

Gdy sytuacja jest niestabilna, ustal cadence aktualizacji co 15 minut. Jeśli nic się nie zmieniło, powiedz to. Regularne aktualizacje powstrzymują boczne dyskusje i zapobiegają powtarzającym się pytaniom „jakieś wieści?”.

Wybierz pierwsze działanie zawierające szkody. Celem jest szybkie ograniczenie szkód, nawet jeśli przyczyna nie jest jeszcze znana. Typowe pierwsze kroki to wstrzymanie zadań w tle, wyłączenie ryzykownego feature flagu, ograniczenie ruchu do modułu lub przełączenie na znaną, bezpieczną konfigurację. W AppMaster często oznacza to wyłączenie konkretnego flow w Business Process Editor lub tymczasowe ukrycie ścieżki UI, która wywołuje błędy.

Jeśli containment nie poprawi metryk w jednym oknie cadence, zacznij równolegle plan rollbacku.

Najpierw stabilizacja: ogranicz wpływ

Buduj z myślą o rollbackie

Buduj produkcyjną aplikację z jasnymi krokami wdrożenia i rollbacku na wypadek incydentów.

Wypróbuj AppMaster

Gdy potwierdzisz, że to realny incydent, przejdź od „szukania błędu” do „zatrzymania krwawienia”. Stabilizacja daje czas. Chroni też użytkowników, przychody i dane, podczas gdy prowadzisz dalsze śledztwo.

Zacznij od najmniejszej zmiany, która redukuje szkody. Zawieranie często jest szybsze niż pełna naprawa, bo możesz wyłączyć nową funkcję, wstrzymać workflow lub zablokować ryzykowną ścieżkę wejścia bez przebudowy.

Jeśli podejrzewasz uszkodzenie danych, najpierw zatrzymaj zapisy. To może oznaczać tymczasowe wyłączenie formularzy, wstrzymanie automatyzacji aktualizujących rekordy lub zablokowanie endpointu API przyjmującego zmiany. Odczytywanie złych danych boli, ale zapisywanie ich mnoży pracę naprawczą.

Jeśli użytkownicy są zablokowani, traktuj logowanie jako priorytet. Sprawdź ustawienia uwierzytelniania i flow logowania przed innymi działaniami. Wszystko inne jest wolniejsze, jeśli użytkownicy (i twój zespół) nie mają dostępu do aplikacji.

Jeśli aplikacja jest wolna lub pojawiają się timeouty, zmniejsz obciążenie i usuń kosztowne ścieżki. Wyłącz ciężkie ekrany, wstrzymaj zadania batchowe i dezaktywuj nowe integracje, które powodują wzrost zapytań. W AppMaster containment może być tak proste, jak wyłączenie problematycznego Business Process lub tymczasowe usunięcie akcji UI, która uruchamia kosztowny łańcuch.

Zachowuj działania przemyślane i dokumentowane. Pod presją zespoły powtarzają kroki lub przypadkowo cofają naprawy. Zapisz każdą zmianę i jej efekt.

Prosta sekwencja stabilizacyjna:

Zatrzymaj zapisy danych, jeśli możliwa jest korupcja, i potwierdź, że nowe rekordy już się nie zmieniają.
Wyłącz najnowszy feature flag, automatyzację lub integrację z osi czasu zdarzeń.
Przywróć dostęp: najpierw logowanie i sesje dla administratorów, potem dla wszystkich użytkowników.
Zmniejsz obciążenie, wstrzymując zadania wsadowe i usuwając najwolniejszą ścieżkę użytkownika.
Loguj każde działanie ze znacznikiem czasu, właścicielem i zaobserwowanym efektem.

Celem jest „bezpieczne i używalne”, a nie „całkowicie naprawione”. Gdy wpływ jest opanowany, możesz spokojnie diagnozować i wybrać właściwy rollback lub naprawę.

Wybory rollbacku i kontrole ryzyka

Szybko odtwarzaj problemy

Szybko odtwarzaj zawodną ścieżkę użytkownika i iteruj bez czekania na długie cykle deweloperskie.

Zbuduj prototyp

Gdy coś się psuje, szybkość ma znaczenie, ale wygrywa najbezpieczniejszy ruch. Zwykle masz trzy praktyczne opcje: rollback, wypuszczenie poprawki naprzód, lub częściowe odwrócenie (wyłączenie jednej funkcji, pozostawiając resztę).

Najpierw jasno określ, co „rollback” oznacza w twojej konfiguracji. Może to być wdrożenie poprzedniej wersji aplikacji, cofnięcie zmiany konfiguracji lub przywrócenie stanu bazy danych. Na platformach takich jak AppMaster „wersja” może obejmować logikę backendu, UI web, buildy mobilne i ustawienia środowiska.

Użyj tych kontroli ryzyka, aby zdecydować, czy rollback jest bezpieczny:

Zmiany schematu bazy danych: rollback może nie powieść się, jeśli starsza wersja oczekuje innych tabel lub pól.
Nieodwracalne zapisy: zwroty, zmiany statusów lub wysłane wiadomości nie można cofnąć.
Kolejki i webhooki: starsza logika może ponownie przetworzyć elementy lub nie poradzić sobie z nowymi payloadami.
Zależności zewnętrzne: integracje płatności, email/SMS lub Telegram mogły zmienić zachowanie.

Ustal prostą regułę go/no-go przed wykonaniem działania. Wybierz 2–3 metryki, które muszą się poprawić w ciągu 10–15 minut po akcji, np. wskaźnik błędów, sukces logowania, zakończenie checkoutu lub opóźnienia API. Jeśli nie idą w dobrym kierunku, zatrzymaj i zmień strategię.

Zaplanuj też wycofanie rollbacku. Wiedz, jak go cofnąć, jeśli starsza wersja spowoduje nowe problemy: którą kompilację ponownie wdrożyć, jaką konfigurację przywrócić i kto zatwierdza tę kolejną zmianę. Miej jedną osobę odpowiedzialną za ostateczną decyzję „ship”, żeby nie zmieniać kursu w trakcie działania.

Komunikacja podczas incydentu

Milczenie pogarsza sytuację. Stosuj prosty, powtarzalny sposób informowania ludzi, podczas gdy zespół prowadzi dochodzenie.

Zacznij od wewnętrznych aktualizacji. Poinformuj osoby, które będą zadawać pytania jako pierwsze, i tych, którzy mogą usunąć blokery. Krótkie i rzeczowe komunikaty powinny trafiać do:

Support / customer success: co widzą użytkownicy i co mają teraz mówić
Sprzedaż / account teams: które konta są dotknięte i czego nie obiecywać
Twórcy / engineering: co się zmieniło, co jest wycofywane, kto nad tym pracuje
Kontakt wykonawczy: wpływ, ryzyko, czas następnej aktualizacji
Jedna osoba zatwierdzająca komunikację zewnętrzną

W aktualizacjach zewnętrznych trzymaj się tego, co wiesz. Unikaj zgadywania przyczyny lub obwiniania dostawcy. Użytkownicy głównie chcą trzech rzeczy: potwierdzenia, zakresu wpływu i kiedy dostaną kolejną informację.

Proste szablony komunikatów

Trzymaj jedną linię statusu spójną we wszystkich kanałach:

Status: Investigating | Identified | Mitigating | Monitoring | Resolved
Impact: „Niektórzy użytkownicy nie mogą się zalogować” lub „Płatności zawodzą dla nowych zamówień”
Workaround: „Spróbuj ponownie za 10 minut” lub „Użyj aplikacji mobilnej, gdy web jest niedostępny” (tylko jeśli prawdziwe)
Next update: „Następna aktualizacja o 14:30 UTC”

Gdy użytkownicy są zdenerwowani, najpierw to przyznaj, potem bądź konkretny: „Wiemy, że checkout zawodzi dla niektórych klientów. Od teraz wycofujemy ostatnią zmianę. Następna aktualizacja za 30 minut.” Nie obiecuj terminów, kredytów ani stałych poprawek podczas incydentu.

Rozwiązane vs monitorowane

Ogłoś resolved tylko wtedy, gdy główny objaw zniknął, a kluczowe kontrole są czyste (logowania, główne przepływy, wskaźniki błędów). Użyj monitoring wtedy, gdy zastosowano poprawkę (np. rollback lub przywrócenie konfiguracji), ale trzeba jeszcze obserwować powtórki. Zawsze podaj, co będziesz monitorować, przez jaki czas i kiedy opublikujesz ostateczną aktualizację.

Diagnostyka przyczyny: szybkie kontrole zawężające przyczynę

Projektuj bezpieczniejsze modele danych

Modeluj dane w schematach przyjaznych PostgreSQL, aby zmiany łatwiej diagnozować później.

Utwórz aplikację

Gdy system jest stabilny, przejdź od gaszenia pożaru do zebrania najmniejszego zestawu faktów wyjaśniających objawy. Celem nie jest idealny root cause — to prawdopodobna przyczyna, którą można poprawić bez pogarszania sytuacji.

Różne objawy wskazują na innych podejrzanych. Wolne strony często oznaczają wolne zapytania do bazy, nagły spike ruchu lub opóźnienie usługi zewnętrznej. Timeouty mogą wynikać z zablokowanego procesu, przeciążonego backendu lub integracji czekającej zbyt długo. Skok błędów lub retry zwykle łączy się z ostatnią zmianą, złym inputem lub awarią upstream.

Szybkie kontrole (15 minut)

Wykonaj jedną prawdziwą ścieżkę użytkownika end-to-end na normalnym koncie testowym. To często najszybszy sygnał, bo dotyka UI, logiki, bazy i integracji.

Skoncentruj się na kilku sprawdzeniach:

Odtwórz jedną podróż: zaloguj się, wykonaj kluczową akcję, potwierdź wynik.
Zlokalizuj wolny/usterkowy krok: ładowanie strony, wywołanie API, zapis do bazy, webhook.
Sprawdź ostatnie dane: przejrzyj 20–50 rekordów pod kątem duplikatów, brakujących pól lub niespójnych sum.
Zweryfikuj integracje: ostatnie próby płatności (np. Stripe), dostawy webhooków i wiadomości (email/SMS lub Telegram).
Potwierdź kontekst zmian: co zostało wydane, skonfigurowane lub migrowane tuż przed spike’iem?

Jeśli korzystasz z AppMaster, często mapuje się to bezpośrednio na krok Business Process, zmianę Data Designer lub konfigurację wdrożenia.

Decyzja: utrzymać mitigację czy wprowadzić naprawę naprzód

Jeśli szybkie kontrole wskazują jasnego winowajcę, wybierz najbezpieczniejszy ruch: utrzymaj aktualne ograniczenie lub zastosuj małą, trwałą naprawę. Usuń rate limits, feature toggles lub obejścia tylko wtedy, gdy podróż powiodła się dwukrotnie, a wskaźnik błędów utrzymuje się stabilnie przez kilka minut.

Przykład: nieudane wydanie w godzinach pracy

Jest 10:15 we wtorek. Zespół wypuszcza małą zmianę do portalu klienta na AppMaster. W ciągu minut użytkownicy widzą puste strony po logowaniu, a nowe zamówienia przestają wpływać.

Support dostaje trzy zgłoszenia: „Logowanie działa, potem portal się nie ładuje.” Monitoring pokazuje spike 500 i spadek udanych wywołań API. Traktujesz to jako realny incydent.

Incident lead robi szybkie potwierdzenie: loguje się jako testowy użytkownik na desktopie i mobile i sprawdza czas ostatniego deploymentu. Czas pasuje do wydania, więc zakładasz, że ostatnia zmiana jest zaangażowana, dopóki nie udowodnisz inaczej.

Pierwsze 30 minut może wyglądać tak:

Contain: ustaw portal w trybie maintenance (lub tymczasowo wyłącz problematyczny feature flag), żeby zatrzymać więcej użytkowników na uszkodzonym flow.
Decide rollback: jeśli awaria zaczęła się zaraz po release i dotyczy wielu użytkowników, cofnij wdrożenie.
Communicate: krótka wewnętrzna aktualizacja (co nie działa, wpływ, bieżące działania, czas następnej aktualizacji). Wyślij krótką wiadomość do klientów, że problem jest znany i pracujecie nad nim.
Recover: wdroż poprzednią, działającą wersję (lub cofnij konkretny moduł). Przetestuj ponownie logowanie, ładowanie dashboardu i jedną kluczową akcję, np. „utwórz zgłoszenie” lub „złóż zamówienie”.
Monitor: obserwuj wskaźniki (błędy, sukces logowania, wolumen zgłoszeń) przez 10–15 minut przed uznaniem stabilności.

O 10:40 błędy wracają do normy. Obserwujesz dalej metryki, a support potwierdza spadek nowych zgłoszeń.

Później zespół robi krótki przegląd: co złapało to pierwsze (alerty vs support), co spowalniało działania (brak właściciela, niejasne kroki rollbacku) i co zmienić. Częsta poprawka to dodanie checklisty smoke-testów dla trzech najważniejszych flow portalu i uczynienie rollbacku udokumentowanym, jednokrokowym procesem.

Typowe błędy, które pogarszają incydenty

Utrzymuj zgodność logiki i API

Buduj API i logikę biznesową razem, żeby triage koncentrował się na jednym źródle prawdy.

Stwórz backend

Większość incydentów pogarsza się z jednego z dwóch powodów: ludzie pozwalają systemowi dalej wyrządzać szkody podczas dochodzenia, albo zmieniają za dużo rzeczy za szybko. Ten runbook ma chronić przed obiema pułapkami.

Typową pułapką jest badanie problemu, gdy aplikacja nadal zapisuje złe dane. Jeśli workflow się zapętla, integracja tworzy duplikaty, albo błąd uprawnień pozwala niewłaściwym użytkownikom edytować rekordy — najpierw wstrzymaj proces. W AppMaster może to oznaczać wyłączenie Business Process, odłączenie integracji modułu lub tymczasowe ograniczenie dostępu, by problem się nie rozprzestrzeniał.

Inną pułapką jest „naprawianie” na chybił-trafił. Gdy kilka osób klika i zmienia ustawienia, tracisz linię czasu. Nawet drobne edycje mają znaczenie podczas incydentu. Uzgodnij jednego lidera zmian, prowadź prosty log zmian i unikaj nakładania poprawek na nieznane przyczyny.

Błędy, które powtarzalnie wydłużają przestoje:

Najpierw badanie, później containment, podczas gdy złe zapisy lub duplikaty nadal powstają
Robienie wielu zmian naraz bez notatek, więc nie da się ustalić, co pomogło
Odkładanie komunikacji lub wysyłanie niejasnych aktualizacji, które rodzą więcej pytań niż zaufania
Cofanie wdrożenia na ślepo bez sprawdzenia stanu bazy i kolejek, maili czy webhooków
Zamykanie incydentu bez jasnego kroku weryfikacji

Komunikacja jest częścią odzysku. Dziel się tym, co wiesz, czego nie wiesz i kiedy pojawi się następna aktualizacja. „Cofamy wdrożenie i potwierdzimy poprawność zdarzeń billingowych w ciągu 15 minut” jest lepsze niż „Sprawdzamy to”.

Nie zamykaj incydentu tylko dlatego, że błędy ustały. Zweryfikuj krótką checklistą: kluczowe ekrany ładują się, nowe rekordy zapisują się poprawnie, krytyczne automatyzacje uruchamiają się raz, a backlogi (kolejki, retry, zadania zaplanowane) są opróżnione lub bezpiecznie wstrzymane.

Szybka lista kontrolna do użycia pod presją

Wdrażaj niezawodne narzędzia wewnętrzne

Wysyłaj portale klienta i panele administracyjne, które można szybko stabilizować, gdy pojawią się problemy.

Zbuduj portal

Gdy coś się psuje, mózg chce robić dziesięć rzeczy naraz. Użyj tego, by zachować spokój, chronić ludzi i przywrócić usługę.

Przypnij tę sekcję tam, gdzie zespół ją zobaczy.

Potwierdź i oceń zakres (5 minut): Sprawdź, czy alerty odpowiadają zgłoszeniom użytkowników. Zapisz, co zawodzi (logowanie, checkout, panel admina), kogo to dotyczy i od kiedy. Jeśli możesz, odtwórz w czystej sesji (incognito lub konto testowe).

Poświęć minutę, by wyznaczyć właściciela incydentu. Jedna osoba decyduje, reszta wspiera.

Stabilizuj i ogranicz (10 minut): Zatrzymaj krwawienie przed szukaniem przyczyny. Wyłącz ryzykowną ścieżkę (feature toggle, tymczasowy banner, pauza kolejek) i przetestuj jedną kluczową podróż end-to-end. Wybierz podróż najważniejszą dla biznesu, niekoniecznie najłatwiejszą do przetestowania.
Przywróć usługę (10–20 minut): Wybierz najbezpieczniejszy ruch: rollback do ostatniej znanej dobrej wersji lub zastosuj minimalną poprawkę. Na platformach takich jak AppMaster może to oznaczać ponowne wdrożenie poprzedniego builda lub cofnięcie ostatniej zmiany, a następnie potwierdzenie, że wskaźniki i czasy odpowiedzi wróciły do normalności.
Komunikuj (przez cały czas): Publikuj krótką aktualizację ze skalą wpływu, co użytkownicy powinni zrobić i kiedy będzie następna aktualizacja. Przygotuj support krótkim, dwuzdaniowym skryptem, żeby wszyscy mówili to samo.
Zamknij porządnie (zanim zapomnisz): Zapisz, co się stało, co zmieniłeś i kiedy usługa wróciła. Przydziel następne kroki z właścicielem i terminem (dostosowanie monitoringu, uzupełnienie testów, porządki w danych, poprawka follow-up).

Po incydencie: ucz się, naprawiaj i zapobiegaj powtórkom

Incydent nie jest w pełni „zamknięty”, gdy aplikacja działa. Najszybszy sposób na zmniejszenie przyszłych przestojów to uchwycenie tego, co się wydarzyło, póki pamięć jest świeża, a potem przekształcenie wniosków w małe, realne zmiany.

Zaplanuj krótki przegląd po incydencie w ciągu 2–5 dni. Zachowaj atmosferę bez obwiniania i praktyczne podejście. Celem nie jest znalezienie winnego, lecz uczynienie następnego incydentu łatwiejszym do obsłużenia.

Spisz raport, który ktoś będzie mógł przeczytać za kilka miesięcy: co widzieli użytkownicy, kiedy wykryto, co próbowano, co zadziałało i kiedy usługa wróciła. Dołącz root cause, jeśli jest znany, i zanotuj czynniki przyczyniające się, jak brak alertów, niejasne właścicielstwo czy mylące kroki release’u.

Przekształć wnioski w zadania z właścicielami i terminami. Skup się na najmniejszych zmianach, które zapobiegną powtórzeniu:

Zamknij luki monitoringowe (dodaj jeden alert lub kontrolę dashboardu, która wykryłaby to wcześniej)
Dodaj zabezpieczenie (reguła walidacji, limit, domyślny stan feature flag, krok zatwierdzający)
Ulepsz testy dla obszaru ryzyka (logowanie, płatności, import danych, uprawnienia)
Zaktualizuj runbook dokładnymi krokami, których ci brakowało
Przeprowadź krótkie szkolenie dla on-call lub właścicieli aplikacji

Wybierz jedną miarę zapobiegawczą na incydent, nawet małą. „Każda zmiana ról wymaga drugiego recenzenta” lub „Migracje danych muszą być uruchamiane najpierw na kopii stagingowej” mogą zapobiec powtórkom.

Trzymaj ten runbook obok procesu budowy i release. Jeśli budujesz z AppMaster, zapisz, gdzie każda aplikacja jest wdrożona (AppMaster Cloud, AWS, Azure, Google Cloud lub self-hosted), kto może szybko redeployować i kto może cofnąć zmianę. Jeśli chcesz jedno miejsce na tę dokumentację, trzymanie jej przy notatkach projektu AppMaster (appmaster.io) ułatwia odnalezienie, gdy każda minuta się liczy.

FAQ

Użyj go zawsze, gdy nieoczekiwany problem blokuje podstawowe zadania, sprawia, że aplikacja jest praktycznie nieużywalna, lub grozi błędnymi / niebezpiecznymi zmianami danych. Jeśli użytkownicy nie mogą się zalogować, płatności zawodzą, automatyzacje przestały działać albo rekordy zapisywane są niepoprawnie — traktuj to jak incydent i postępuj według runbooka.

Zacznij od wpływu na użytkownika: kto nie może czego zrobić teraz i od kiedy. Potem odtwórz problem na tym samym roli i urządzeniu oraz sprawdź, czy dotyczy jednego konta, segmentu czy wszystkich użytkowników — to zapobiegnie gonieniu fałszywych tropów.

Oznacz jako SEV1, gdy większość użytkowników jest zablokowana lub gdy zagrożone są pieniądze/bezpieczeństwo/dane. SEV2 to kluczowa funkcja ze sposobem obejścia, a SEV3 to drobne lub ograniczone błędy. Szybka decyzja jest ważniejsza niż idealna klasyfikacja.

Wybierz jednego incident leada, który podejmuje ostateczne decyzje, a następnie przydziel naprawiającego (fixer), osobę do komunikacji i notującego. W małym zespole jedna osoba może pełnić kilka ról, ale rola lead powinna być jasna.

Zatrzymanie szkody szybko, nawet jeśli przyczyna nie jest jasna. W AppMaster to często oznacza wyłączenie konkretnego Business Process, tymczasowe ukrycie akcji UI, która powoduje błędy, lub wstrzymanie automatyzacji zapisujących dane.

Wycofaj zmianę, gdy awaria zaczęła się tuż po wdrożeniu i masz znaną, działającą poprzednią wersję, która szybciej przywróci usługę. Wybierz poprawkę "forward" tylko wtedy, gdy możesz wykonać małą, niskoryzykowną zmianę i szybko ją zweryfikować.

Rollback jest ryzykowny, gdy zmieniał się schemat bazy danych, gdy wykonane zostały nieodwracalne zapisy (zwroty, zmiany statusów, wysłane wiadomości) lub gdy kolejki/webhooki mogą zostać ponownie przetworzone przez starszą logikę. W takich przypadkach najpierw ustabilizuj środowisko i zweryfikuj, czego oczekuje starsza wersja.

Najpierw zatrzymaj zapisy, jeśli podejrzewasz korupcję danych — złe zapisy mnożą pracę porządkową. Praktycznie oznacza to wyłączenie formularzy, wstrzymanie automatyzacji aktualizujących rekordy lub zablokowanie endpointów przyjmujących zmiany, dopóki nie potwierdzisz, że nowe rekordy nie są już nieprawidłowo modyfikowane.

Wysyłaj krótkie, rzeczowe aktualizacje w stałych odstępach z informacją, co jest dotknięte, co robicie i kiedy będzie następna aktualizacja. Unikaj spekulacji lub obwiniania dostawców — użytkownicy potrzebują jasności i przewidywalnych komunikatów.

Ogłoś "resolved" dopiero, gdy główny objaw zniknął, a kluczowe kontrole (logowania, podstawowy workflow, wskaźniki błędów) są czyste. Użyj "monitoring", gdy zastosowano naprawę, ale nadal obserwujesz system i podasz, co i jak długo będziesz monitorować.