20 Jul 2025·8 menit membaca

Runbook insiden untuk aplikasi no-code: deteksi, triase, pemulihan

Gunakan runbook insiden ini untuk aplikasi no-code agar cepat mendeteksi masalah, triase dampak, rollback dengan aman, berkomunikasi jelas, dan mencegah pengulangan.

Apa itu runbook ini dan kapan menggunakannya

Insiden adalah masalah tak terduga yang menghentikan orang menggunakan aplikasi Anda, membuatnya sangat lambat, atau membahayakan data. Pada aplikasi no-code, itu bisa berupa kegagalan login mendadak, layar rusak setelah perubahan, otomatisasi latar belakang yang berhenti berjalan, kesalahan API, atau alur kerja yang “berhasil” tetapi diam-diam menulis nilai yang salah ke database.

Runbook tertulis mengubah momen penuh tekanan menjadi serangkaian tindakan kecil dan jelas. Ia mengurangi tebak-tebakan, mempercepat keputusan (seperti kapan rollback perlu dilakukan), dan membantu semua orang berbagi fakta yang sama. Sebagian besar penundaan selama insiden bukanlah teknis. Mereka muncul dari ketidakpastian: Apakah ini nyata? Siapa yang memimpin? Apa yang berubah? Apa yang kita beri tahu pengguna?

Buku panduan ini untuk siapa saja yang berurusan dengan aplikasi saat terjadi masalah: pembuat yang mengirim perubahan, ops atau pemilik platform yang mengelola deployment dan akses, tim dukungan yang menerima laporan pertama, dan pemilik produk atau bisnis yang menilai dampak dan prioritas.

Ini dibuat ringan secara sengaja, termasuk untuk tim yang membangun di platform seperti AppMaster di mana Anda mungkin memiliki logika visual, layanan yang digenerasikan, dan beberapa opsi deployment.

Ini mencakup siklus insiden penuh: deteksi dan konfirmasi masalah nyata, triase cepat, menstabilkan dan memulihkan (termasuk keputusan rollback), komunikasi selama gangguan, lalu melakukan tinjauan pasca-insiden singkat agar masalah yang sama lebih kecil kemungkinannya terulang.

Ini tidak mencakup desain arsitektur jangka panjang, forensik keamanan mendalam, atau prosedur kepatuhan kompleks. Jika Anda menangani data yang diatur secara ketat atau infrastruktur kritis, tambahkan langkah yang lebih ketat di atas runbook ini.

Sebelum apa pun rusak: tetapkan baseline dan peran

Insiden terasa kacau saat Anda tidak tahu seperti apa “normal”. Tetapkan baseline Anda sehingga tim bisa cepat melihat masalah nyata. Untuk aplikasi no-code, sinyal awal biasanya datang dari gabungan kesehatan platform, metrik bisnis, dan laporan orang.

Tuliskan sinyal yang akan Anda pantau setiap hari, bukan hanya saat outage. Yang umum termasuk uptime, tingkat error, layar yang lambat, kegagalan login, kegagalan pembayaran, dan lonjakan tiket dukungan atau pesan pengguna.

Definisikan tingkat keparahan dalam bahasa yang mudah dipahami agar siapa pun bisa menggunakannya:

SEV1: Sebagian besar pengguna tidak bisa menggunakan aplikasi, atau uang/keamanan berisiko.
SEV2: Fitur kunci rusak, tetapi ada solusi sementara.
SEV3: Masalah kecil, terbatas pada beberapa pengguna, atau bug kosmetik.

Tetapkan target respons yang mendorong momentum. Contoh target: akui dalam 5 menit, posting pembaruan pertama dalam 15 menit, dan usahakan menstabilkan dalam 60 menit (meskipun perbaikan penuh mungkin butuh lebih lama).

Tentukan peran sebelum Anda membutuhkannya. Nama siapa yang bisa menyatakan insiden, siapa yang memimpinnya, dan siapa cadangannya jika orang itu offline. Pada tim AppMaster, itu sering orang yang memiliki logika Business Process, plus cadangan yang bisa menangani deployment atau ekspor.

Terakhir, simpan satu tempat bersama untuk catatan insiden. Gunakan timestamp untuk setiap tindakan (apa yang berubah, kapan, oleh siapa) sehingga Anda bisa merekonstruksi cerita nanti tanpa menebak.

Deteksi dan konfirmasi: apakah ini nyata dan seberapa parah

Konfirmasi dampak sebelum Anda menatap dashboard. Ajukan satu pertanyaan jelas: siapa yang tidak bisa melakukan apa sekarang? “Tim dukungan tidak bisa membuka tiket” lebih berguna daripada “aplikasinya lambat.” Jika bisa, reproduksi masalah menggunakan peran dan perangkat yang sama seperti pengguna yang terdampak.

Selanjutnya, tentukan seberapa luas. Apakah hanya satu akun, segmen pelanggan, atau semua orang? Lakukan pembagian cepat: wilayah, tipe akun, web vs mobile, dan satu fitur vs seluruh aplikasi. Pada alat no-code, sesuatu bisa terlihat global padahal sebenarnya aturan izin atau satu layar yang rusak.

Lalu periksa apa yang berubah. Lihat kembali 1–2 jam untuk rilis, toggle konfigurasi, edit skema database, atau impor data. Di platform seperti AppMaster, perubahan pada business processes, model data, atau pengaturan auth dapat memengaruhi banyak alur sekaligus, meskipun UI terlihat baik.

Sebelum menyalahkan aplikasi Anda, singkirkan ketergantungan eksternal. Penyedia email/SMS, pembayaran (seperti Stripe), dan integrasi (Telegram, layanan AWS, API AI) bisa gagal atau membatasi permintaan. Jika aplikasi rusak hanya saat mengirim pesan atau menagih kartu, akar masalah mungkin di hulu.

Gunakan checklist keputusan sederhana:

Monitor jika dampak rendah dan error tidak meningkat.
Mitigate now jika pengguna diblokir melakukan tugas inti atau data berisiko.
Declare an incident jika masalah luas, sensitif waktu, atau tidak jelas.
Escalate jika masalah menyentuh pembayaran, otentikasi, atau data produksi.
Set a check-in time (misalnya, setiap 15 menit) agar tim tidak melenceng.

Setelah Anda mengklasifikasikan tingkat keparahan dan cakupan, Anda bisa beralih dari “apakah ini nyata?” ke “apa yang kita lakukan pertama?” tanpa menebak.

Triase langkah demi langkah (30 menit pertama)

Buka catatan insiden segera. Beri judul sederhana yang menyebut dampak pengguna, bukan dugaan penyebab (mis. “Checkout gagal untuk pelanggan EU”). Tulis waktu mulai (alert pertama atau laporan pertama). Ini menjadi satu tempat untuk keputusan, timestamp, dan apa yang berubah.

Tugaskan peran agar pekerjaan tidak tumpang tindih. Bahkan di tim kecil, memberi nama pemilik mengurangi kesalahan saat tekanan tinggi. Paling tidak, Anda ingin:

Incident lead: menjaga fokus, menetapkan prioritas, memutuskan contain vs rollback
Fixer: menyelidiki dan menerapkan perubahan
Comms: memposting pembaruan ke pemangku kepentingan dan dukungan
Note taker: mencatat tindakan, waktu, dan hasil

Nyatakan dua hal secara tertulis: apa yang Anda ketahui pasti, dan hipotesis saat ini. “Diketahui” mungkin: tingkat error melonjak, endpoint tertentu gagal, hanya mobile yang terdampak. Hipotesis bisa salah, tapi harus memandu pengujian berikutnya. Perbarui keduanya saat Anda belajar.

Saat keadaan tidak stabil, tetapkan ritme pembaruan 15 menit. Jika tidak ada yang berubah, katakan begitu. Pembaruan rutin menghentikan diskusi samping dan mencegah ping “ada kabar?” yang berulang.

Pilih tindakan containment pertama. Tujuannya adalah mengurangi kerugian dengan cepat, meskipun akar masalah belum jelas. Langkah awal tipikal termasuk menghentikan pekerjaan latar, menonaktifkan feature flag berisiko, membatasi lalu lintas ke modul, atau beralih ke konfigurasi yang diketahui aman. Di AppMaster, ini sering berarti mematikan flow tertentu di Business Process Editor atau sementara menyembunyikan jalur UI yang memicu kegagalan.

Jika containment tidak memperbaiki metrik dalam satu jendela cadence, mulai rencana rollback secara paralel.

Stabilkan dulu: kurangi dampak

Berpindah dari panik ke proses

Hasilkan kode backend dan frontend nyata sehingga perbaikan dan redeploy tetap dapat diprediksi.

Uji Build

Setelah Anda memastikan ini insiden nyata, beralih dari “mencari bug” menjadi “menghentikan kebocoran.” Menstabilkan memberi Anda waktu. Itu juga melindungi pengguna, pendapatan, dan data saat Anda menyelidiki.

Mulai dengan perubahan terkecil yang mengurangi kerugian. Containment sering lebih cepat daripada perbaikan penuh karena Anda bisa menonaktifkan fitur baru, menjeda workflow, atau memblokir jalur input berisiko tanpa rekonstruksi.

Jika Anda curiga data sedang korup, hentikan penulisan terlebih dahulu. Itu dapat berarti sementara menonaktifkan form, menjeda otomatisasi yang memperbarui record, atau memblokir endpoint API yang menerima pembaruan. Membaca data yang buruk menyakitkan, tetapi menulis data buruk menggandakan pekerjaan pembersihan.

Jika pengguna terkunci keluar, anggap login sebagai prioritas utama. Periksa pengaturan otentikasi dan alur login sebelum hal lain. Semua perbaikan lain lebih lambat jika pengguna (dan tim Anda sendiri) tidak dapat mengakses aplikasi.

Jika aplikasi lambat atau timeout, kurangi beban dan hilangkan jalur yang mahal. Matikan layar berat, jeda pekerjaan latar, dan nonaktifkan integrasi baru yang memicu lonjakan permintaan. Di AppMaster, containment mungkin semudah menonaktifkan Business Process yang bermasalah atau sementara menghapus aksi UI yang memicu rantai mahal.

Jaga agar tindakan dilakukan dengan sengaja dan terdokumentasi. Di bawah tekanan, tim mengulangi langkah atau tanpa sengaja membatalkan perbaikan. Tuliskan setiap perubahan dan hasilnya.

Urutan stabilisasi sederhana:

Hentikan penulisan data jika korupsi mungkin terjadi, dan konfirmasi record baru tidak lagi berubah.
Nonaktifkan feature flag, otomatisasi, atau integrasi terbaru yang terlibat dalam timeline.
Lindungi akses: pulihkan login dan alur sesi untuk admin dulu, lalu semua pengguna.
Kurangi beban dengan menjeda batch job dan menghapus jalur pengguna paling lambat.
Catat setiap tindakan dengan timestamp, pemilik, dan efek yang diamati.

Tujuan Anda adalah “aman dan dapat digunakan,” bukan “selesai sepenuhnya.” Setelah dampak terkandung, Anda bisa mendiagnosis dengan tenang dan memilih rollback atau perbaikan yang tepat.

Pilihan rollback dan pemeriksaan risiko

Siapkan untuk insiden berikutnya

Jaga lingkungan dan deployment terorganisir di AppMaster Cloud atau cloud Anda sendiri.

Atur Proyek

Saat sesuatu rusak, kecepatan penting, tetapi langkah yang paling aman menang. Anda biasanya punya tiga opsi praktis: rollback, mengirim perbaikan maju, atau melakukan revert parsial (mematikan satu fitur sambil membiarkan sisanya).

Pertama, jelaskan apa arti “rollback” dalam setup Anda. Itu bisa berarti menerapkan versi aplikasi sebelumnya, mengembalikan perubahan konfigurasi, atau memulihkan kondisi database. Di platform seperti AppMaster, sebuah “versi” bisa mencakup logika backend, UI web, build mobile, dan pengaturan environment.

Gunakan pemeriksaan risiko ini untuk memutuskan apakah rollback aman:

Perubahan skema database: rollback mungkin gagal jika versi lama mengharapkan tabel atau field berbeda.
Penulisan data yang tak dapat dibalik: pengembalian dana, perubahan status, atau pesan yang sudah dikirim tidak bisa dibatalkan.
Antrean pekerjaan dan webhook: logika lama mungkin memproses ulang item atau gagal pada payload baru.
Ketergantungan eksternal: integrasi pembayaran, email/SMS, atau Telegram mungkin berubah perilakunya.

Tetapkan aturan go/no-go sederhana sebelum Anda menyentuh apa pun. Pilih 2–3 metrik yang harus membaik dalam 10–15 menit setelah tindakan, seperti tingkat error, keberhasilan login, penyelesaian checkout, atau latensi API. Jika metrik tidak bergerak ke arah yang benar, hentikan dan ubah strategi.

Rencanakan juga cara membatalkan rollback. Tahu bagaimana Anda akan membatalkan jika versi lama menyebabkan masalah baru: build mana yang dideploy ulang, konfigurasi mana yang harus diterapkan kembali, dan siapa yang menyetujui perubahan kedua itu. Pegang satu orang bertanggung jawab untuk keputusan akhir “ship” agar Anda tidak berubah arah di tengah langkah.

Komunikasi selama insiden

Diam membuat insiden lebih buruk. Gunakan cara sederhana dan dapat diulang untuk menjaga orang tetap terinformasi sementara tim menyelidiki.

Mulai dengan pembaruan internal. Beri tahu orang yang akan menerima pertanyaan pertama, dan orang yang bisa menghapus hambatan. Jaga singkat dan faktual. Biasanya Anda butuh:

Dukungan atau customer success: apa yang dilihat pengguna dan apa yang harus dikatakan sekarang
Sales atau tim akun: akun mana yang terdampak dan apa yang tidak boleh dijanjikan
Pembuat/engineering: apa yang berubah, apa yang sedang di-rollback, siapa yang mengerjakan
Kontak eksekutif: dampak, risiko, waktu pembaruan berikutnya
Satu pemilik yang menyetujui kata-kata eksternal

Untuk pembaruan eksternal, tetap pada hal yang Anda ketahui. Hindari menebak akar penyebab atau menyalahkan vendor. Pengguna sebagian besar ingin tiga hal: konfirmasi, dampak, dan kapan Anda akan memberi pembaruan lagi.

Template pesan sederhana

Simpan satu baris status konsisten di semua saluran:

Status: Investigating | Identified | Mitigating | Monitoring | Resolved
Impact: “Beberapa pengguna tidak bisa login” atau “Pembayaran gagal untuk pesanan baru”
Workaround: “Coba lagi dalam 10 menit” atau “Gunakan aplikasi mobile sementara web down” (hanya jika benar)
Next update: “Pembaruan berikutnya pada 14:30 UTC”

Jika pengguna marah, akui dulu, lalu jelaskan: “Kami tahu checkout gagal untuk beberapa pelanggan. Kami sedang rollback perubahan terakhir sekarang. Pembaruan berikutnya dalam 30 menit.” Jangan menjanjikan deadline, kredit, atau perbaikan permanen selama insiden.

Resolved vs monitoring

Nyatakan resolved hanya saat gejala utama hilang dan pemeriksaan kunci bersih (login, alur inti, tingkat error). Gunakan monitoring ketika Anda sudah menerapkan perbaikan (mis. rollback deployment atau mengembalikan konfigurasi) tetapi masih perlu waktu untuk mengawasi ulang. Selalu sebutkan apa yang akan Anda pantau, berapa lama, dan kapan pembaruan final akan dipublikasikan.

Diagnosa penyebab: pemeriksaan cepat yang mempersempit kemungkinan

Luncurkan alat internal yang andal

Kirim portal pelanggan dan panel admin yang bisa Anda stabilkan dengan cepat saat masalah muncul.

Bangun Portal

Setelah keadaan stabil, beralih dari memadamkan api ke mengumpulkan fakta terkecil yang menjelaskan gejala. Tujuannya bukan akar penyebab sempurna, tetapi penyebab yang mungkin sehingga Anda bisa bertindak tanpa memperparah insiden.

Gejala berbeda menunjuk pada tersangka yang berbeda. Halaman lambat sering berarti query database lambat, lonjakan trafik, atau layanan eksternal melambat. Timeout bisa berasal dari proses macet, backend yang kewalahan, atau integrasi yang menunggu terlalu lama. Lonjakan error atau retry sering berhubungan dengan perubahan baru, input buruk, atau outage upstream.

Pemeriksaan cepat (15 menit)

Jalankan satu perjalanan pengguna riil dari awal hingga akhir dengan akun uji normal. Ini sering sinyal tercepat karena menyentuh UI, logika, database, dan integrasi.

Fokus pada beberapa pengecekan:

Reproduksi satu perjalanan: masuk, lakukan aksi kunci, konfirmasi hasil.
Temukan langkah yang lambat/gagal: pemuatan halaman, panggilan API, penyimpanan database, webhook.
Periksa data terbaru: scan 20–50 record terakhir untuk duplikat, field yang hilang, atau total yang tidak cocok.
Validasi integrasi: upaya pembayaran terbaru (mis. Stripe), pengiriman webhook, dan pesan apa pun (email/SMS atau Telegram).
Konfirmasi konteks perubahan: apa yang dirilis, dikonfigurasi, atau dimigrasi tepat sebelum lonjakan?

Jika Anda di AppMaster, ini sering bisa dipetakan jelas ke langkah Business Process, perubahan Data Designer, atau konfigurasi deployment.

Putuskan: pertahankan mitigasi atau perbaiki maju

Jika pemeriksaan cepat mengarah ke penyebab yang jelas, pilih langkah paling aman: pertahankan mitigasi saat ini, atau terapkan perbaikan kecil permanen. Hanya lepaskan batasan laju, feature toggle, atau solusi sementara setelah perjalanan berhasil dua kali dan tingkat error stabil beberapa menit.

Contoh skenario: rilis gagal saat jam kerja

Pukul 10:15 pagi hari Selasa. Tim mengirim perubahan kecil ke portal pelanggan yang dibangun di AppMaster. Dalam beberapa menit, pengguna mulai melihat halaman kosong setelah login, dan pesanan baru berhenti masuk.

Dukungan menerima tiga tiket dengan pesan yang sama: “Login berhasil, lalu portal tidak pernah termuat.” Pada saat yang sama, monitoring menunjukkan lonjakan error 500 di web app dan penurunan panggilan API sukses. Anda menganggap ini insiden nyata.

Incident lead melakukan konfirmasi cepat: coba login sebagai pengguna uji di desktop dan mobile, dan periksa waktu deployment terakhir. Waktu cocok dengan rilis, jadi Anda anggap perubahan terbaru terlibat sampai terbukti lain.

30 menit pertama mungkin terlihat seperti ini:

Contain: pasang portal ke mode maintenance (atau sementara nonaktifkan feature flag yang terdampak) untuk menghentikan lebih banyak pengguna mengakses alur yang rusak.
Decide rollback: jika kegagalan dimulai tepat setelah rilis dan mempengaruhi banyak pengguna, rollback dulu.
Communicate: kirim pembaruan internal singkat (apa yang rusak, dampak, tindakan saat ini, waktu pembaruan berikutnya). Kirim pesan pelanggan singkat bahwa Anda menyadari masalah dan sedang menanganinya.
Recover: redeploy versi terakhir yang diketahui baik (atau revert modul spesifik). Uji ulang login, pemuatan dashboard, dan satu aksi inti seperti “buat tiket” atau “buat pesanan.”
Monitor: amati tingkat error, keberhasilan login, dan volume tiket dukungan selama 10–15 menit sebelum menyatakan stabil.

Pada 10:40 pagi, error kembali normal. Anda terus memantau metrik sementara dukungan mengonfirmasi ticket baru berkurang.

Setelah itu, tim melakukan tinjauan singkat: apa yang menangkap ini pertama kali (alert vs dukungan), apa yang memperlambat (pemilik tidak jelas, langkah rollback tidak jelas), dan apa yang harus diubah. Perbaikan umum adalah menambahkan checklist smoke-test rilis untuk tiga alur teratas portal dan membuat rollback menjadi langkah satu-aksi yang terdokumentasi.

Kesalahan umum yang memperburuk insiden

Hindari utang teknis dalam perbaikan

Regenerasi kode bersih saat kebutuhan berubah, mengurangi hotfix yang berantakan nanti.

Mulai Sekarang

Sebagian besar insiden memburuk karena satu dari dua alasan: orang membiarkan sistem terus memberi dampak sambil menyelidiki, atau mereka mengubah terlalu banyak hal terlalu cepat. Runbook ini dimaksudkan untuk melindungi Anda dari keduanya.

Perangkap umum adalah menyelidiki sementara aplikasi masih menulis data buruk. Jika sebuah workflow looping, integrasi memposting duplikat, atau bug izin membiarkan pengguna yang salah mengedit record, jeda proses bermasalah terlebih dahulu. Di AppMaster, itu bisa berarti menonaktifkan Business Process, mematikan integrasi modul, atau sementara membatasi akses supaya masalah berhenti menyebar.

Perangkap lain adalah “memperbaiki” dengan menebak. Saat beberapa orang mengklik sana-sini dan mengubah pengaturan, Anda kehilangan timeline. Bahkan edit kecil penting selama insiden. Sepakati satu pengemudi, simpan log perubahan sederhana, dan hindari menumpuk tweak di atas ketidakpastian.

Kesalahan yang berulang membuat outage lebih lama:

Menyelidiki dulu dan menahan containment, sementara penulisan buruk atau tindakan duplikat terus terjadi
Membuat banyak perubahan sekaligus tanpa catatan, sehingga Anda tidak tahu apa yang membantu atau merusak
Menunggu untuk berkomunikasi, atau mengirim pembaruan samar yang menimbulkan lebih banyak pertanyaan daripada kepercayaan
Rollback tanpa memeriksa kondisi database dan antrean pekerjaan, email, atau webhook
Menutup insiden tanpa langkah verifikasi yang jelas

Komunikasi adalah bagian dari pemulihan. Bagikan apa yang Anda ketahui, apa yang tidak Anda ketahui, dan kapan pembaruan berikutnya akan datang. “Kami sedang rollback dan akan mengonfirmasi event penagihan benar dalam 15 menit” lebih baik daripada “Kami sedang melihatnya.”

Jangan tutup insiden hanya karena error berhenti. Verifikasi dengan checklist singkat: layar kunci dimuat, record baru tersimpan dengan benar, otomatisasi kritis berjalan sekali, dan backlog (antrean, retry, job terjadwal) dikosongkan atau dijeda dengan aman.

Checklist cepat yang bisa dijalankan saat tekanan

Selaraskan logika dan API

Bangun API dan logika bisnis bersama sehingga triase fokus pada satu sumber kebenaran.

Buat Backend

Saat sesuatu rusak, otak Anda akan mencoba melakukan sepuluh tugas sekaligus. Gunakan ini untuk tetap tenang, menjaga orang aman, dan mengembalikan layanan.

Pin bagian ini di tempat tim benar-benar melihatnya.

Konfirmasi dan skop dampak (5 menit): Periksa apakah alert sesuai dengan laporan pengguna. Tulis apa yang gagal (login, checkout, panel admin), siapa yang terdampak, dan sejak kapan. Jika bisa, reproduksi di sesi bersih (incognito atau akun uji).

Luangkan satu menit untuk menunjuk pemilik insiden. Satu orang memutuskan, semua orang lain mendukung.

Stabilisasi dan containment (10 menit): Hentikan kebocoran sebelum mencari akar penyebab. Nonaktifkan jalur berisiko (feature toggle, banner sementara, jeda antrean) dan uji satu perjalanan kunci end to end. Pilih perjalanan yang paling penting untuk bisnis, bukan yang paling mudah diuji.
Pulihkan layanan (10–20 menit): Pilih langkah paling aman: rollback ke versi terakhir yang diketahui baik atau terapkan perbaikan minimal. Di platform seperti AppMaster, itu mungkin berarti redeploy build sebelumnya atau revert perubahan terakhir, lalu konfirmasi tingkat error dan waktu respons kembali normal.
Komunikasi (terus-menerus): Posting pembaruan singkat dengan apa yang terdampak, apa yang harus dilakukan pengguna, dan waktu pembaruan berikutnya. Brief dukungan dengan skrip dua kalimat supaya semua orang mengatakan hal yang sama.
Tutup dengan rapi (sebelum lupa): Catat apa yang terjadi, apa yang Anda ubah, dan jam kapan layanan pulih. Tugaskan langkah selanjutnya dengan pemilik dan tenggat waktu (penyempurnaan monitoring, celah tes, pembersihan data, perbaikan lanjutan).

Setelah insiden: belajar, perbaiki, dan cegah pengulangan

Sebuah insiden tidak sepenuhnya “selesai” saat aplikasi kembali online. Cara tercepat mengurangi downtime di masa depan adalah menangkap apa yang terjadi saat ingatan masih segar, lalu ubah pembelajaran itu menjadi perubahan kecil yang nyata.

Jadwalkan tinjauan pasca-insiden singkat dalam 2–5 hari. Jaga agar bebas rasa saling menyalahkan dan praktis. Tujuannya bukan mencari orang yang disalahkan, tetapi membuat insiden berikutnya lebih mudah diatasi.

Tulis catatan yang bisa dibaca seseorang berbulan-bulan kemudian: apa yang dilihat pengguna, kapan Anda mendeteksi, apa yang dicoba, apa yang berhasil, dan kapan layanan kembali. Sertakan akar penyebab jika Anda mengetahuinya, dan catat faktor pendukung seperti alert yang hilang, kepemilikan yang tidak jelas, atau langkah rollout yang membingungkan.

Ubah pembelajaran menjadi tugas dengan pemilik dan tenggat waktu. Fokus pada perubahan terkecil yang mencegah kegagalan yang sama:

Tutup celah monitoring (tambahkan satu alert atau cek dashboard yang akan menangkapnya lebih awal)
Tambah guardrail (aturan validasi, rate limit, default feature flag, langkah persetujuan)
Tingkatkan tes untuk area berisiko (login, pembayaran, impor data, izin)
Perbarui runbook dengan langkah tepat yang Anda inginkan saat itu
Lakukan penyegaran pelatihan singkat untuk on-call atau pemilik aplikasi

Pilih satu tindakan pencegahan per insiden, meskipun kecil. “Setiap perubahan peran memerlukan reviewer kedua” atau “Migrasi data harus dijalankan dulu di salinan staging” bisa mencegah outage berulang.

Simpan runbook ini dekat proses build dan release Anda. Jika Anda membangun dengan AppMaster, tuliskan di mana setiap aplikasi dideploy (AppMaster Cloud, AWS, Azure, Google Cloud, atau self-hosted), siapa yang bisa redeploy cepat, dan siapa yang bisa rollback. Jika Anda ingin satu tempat untuk dokumentasi tersebut, menyimpannya di dekat catatan proyek AppMaster (appmaster.io) memudahkan menemukannya saat menit berharga.

FAQ

Gunakan runbook ini kapan pun masalah tak terduga menghalangi tugas inti, membuat aplikasi sangat lambat, atau berisiko menyebabkan perubahan data yang salah atau tidak aman. Jika pengguna tidak bisa masuk, pembayaran gagal, otomatisasi berhenti, atau catatan ditulis dengan cara yang salah, anggap itu sebagai insiden dan ikuti runbook.

Mulai dari dampak pengguna: siapa yang tidak bisa melakukan apa sekarang, dan sejak kapan. lalu reproduksi dengan peran dan perangkat yang sama, dan periksa apakah hanya satu akun, segmen, atau semua orang agar Anda tidak mengejar penyebab yang salah.

Nyatakan SEV1 ketika sebagian besar pengguna terblokir atau uang/keamanan/data berisiko. Gunakan SEV2 saat fitur utama rusak tetapi ada jalan keluar, dan SEV3 untuk masalah kecil atau berdampak terbatas; keputusan cepat lebih penting daripada sempurna.

Pilih satu incident lead yang membuat keputusan akhir, lalu tugaskan seorang fixer, pemilik komunikasi, dan pencatat agar orang tidak tumpang tindih atau mengubah sesuatu secara tidak sengaja. Jika tim kecil, satu orang bisa memegang dua peran, tetapi peran incident lead harus jelas.

Containment berarti menghentikan kerugian dengan cepat, meskipun penyebabnya belum jelas. Di AppMaster, itu sering berarti menonaktifkan Business Process tertentu, sementara menyembunyikan aksi UI yang memicu kegagalan, atau menjeda otomatisasi yang berulang atau menulis data buruk.

Rollback saat masalah dimulai tepat setelah rilis dan Anda memiliki versi yang diketahui baik yang memulihkan layanan dengan cepat. Pilih perbaikan maju hanya jika Anda bisa membuat perubahan kecil yang berisiko rendah dan memverifikasinya dengan cepat tanpa menimbulkan waktu henti lebih lanjut.

Anggap rollback berisiko jika skema database telah berubah, jika ada penulisan yang tidak dapat dibalik, atau jika antrean pekerjaan dan webhook mungkin diproses ulang oleh logika versi lama. Jika ada hal-hal tersebut, stabilkan terlebih dahulu dan pastikan versi lama mengharapkan apa sebelum redeploy.

Hentikan penulisan terlebih dahulu jika Anda mencurigai kerusakan data, karena penulisan buruk akan memperbesar pekerjaan pembersihan. Praktisnya, nonaktifkan form, jeda otomatisasi yang memperbarui data, atau blok endpoint pembaruan sampai Anda yakin catatan baru tidak lagi berubah secara salah.

Kirim pembaruan singkat dan faktual pada jadwal tetap tentang apa yang terdampak, apa yang sedang Anda lakukan, dan kapan pembaruan berikutnya. Hindari menebak penyebab atau menyalahkan vendor; pengguna dan pemangku kepentingan terutama butuh kejelasan dan pembaruan yang dapat diprediksi.

Anggap resolved hanya setelah gejala utama pengguna hilang dan pemeriksaan kunci bersih, seperti login, alur utama, dan tingkat error. Jika Anda menerapkan perbaikan tapi masih perlu waktu untuk memantau agar tidak terulang, sebut sebagai monitoring dan jelaskan apa yang dipantau dan berapa lama.