30 Mar 2025·7 menit membaca

Checklist keandalan webhook: percobaan ulang, idempotensi, pemrosesan ulang

Checklist praktis keandalan webhook: retry, idempotensi, log replay, dan monitoring untuk webhook masuk dan keluar saat mitra gagal.

Mengapa webhooks terasa tidak dapat diandalkan dalam proyek nyata

Webhook pada dasarnya sederhana: satu sistem mengirim permintaan HTTP ke sistem lain ketika sesuatu terjadi. "Pesanan dikirim", "tiket diperbarui", "perangkat offline". Itu pada dasarnya notifikasi push antar aplikasi yang dikirim lewat web.

Di demo mereka terasa andal karena jalur bahagia cepat dan bersih. Dalam pekerjaan nyata, webhooks berada di antara sistem yang Anda tidak kendalikan: CRM, penyedia pengiriman, help desk, alat pemasaran, platform IoT, bahkan aplikasi internal milik tim lain. Di luar pembayaran, Anda sering kehilangan jaminan pengiriman yang matang, skema event yang stabil, dan perilaku retry yang konsisten.

Tanda pertama biasanya membingungkan:

Event duplikat (pembaruan yang sama tiba dua kali)
Event hilang (sesuatu berubah, tetapi Anda tidak pernah mendengarnya)
Keterlambatan (pembaruan datang beberapa menit atau jam kemudian)
Event tidak berurutan (update "closed" tiba sebelum "opened")

Sistem pihak ketiga yang fluktuatif membuat ini terasa acak karena kegagalan tidak selalu nyaring. Penyedia bisa saja timeout tetapi tetap memproses permintaan Anda. Load balancer bisa memutus koneksi setelah pengirim sudah melakukan retry. Atau sistem mereka bisa turun sebentar, lalu mengirim gelombang event lama sekaligus.

Bayangkan mitra pengiriman yang mengirim webhook "delivered". Suatu hari penerima Anda lambat selama 3 detik, jadi mereka retry. Anda menerima dua pengiriman, pelanggan Anda menerima dua email, dan support bingung. Keesokan harinya mereka mengalami outage dan tidak pernah retry, sehingga "delivered" tak pernah sampai dan dashboard Anda tetap macet.

Keandalan webhook kurang tentang satu permintaan sempurna dan lebih tentang merancang untuk realitas yang berantakan: retry, idempotensi, dan kemampuan untuk memutar ulang serta memverifikasi apa yang terjadi nanti.

Tiga blok bangunan: retry, idempotensi, replay

Webhooks bergerak dua arah. Inbound webhooks adalah panggilan yang Anda terima dari pihak lain (penyedia pembayaran, CRM, alat pengiriman). Outbound webhooks adalah panggilan yang Anda kirim ke pelanggan atau mitra ketika sesuatu berubah di sistem Anda. Keduanya bisa gagal karena alasan yang tidak ada hubungannya dengan kode Anda.

Retry adalah apa yang terjadi setelah kegagalan. Pengirim mungkin retry karena mendapatkan timeout, error 500, koneksi terputus, atau tidak ada respons cukup cepat. Retry yang baik adalah perilaku yang diharapkan, bukan kasus tepi yang jarang terjadi. Tujuannya adalah mendapatkan event lewat tanpa membanjiri penerima atau menciptakan side effect duplikat.

Idempotensi adalah cara membuat duplikat aman. Artinya "lakukan sekali, bahkan jika diterima dua kali". Jika webhook yang sama tiba lagi, Anda mendeteksinya dan mengembalikan respons sukses tanpa menjalankan aksi bisnis untuk kedua kalinya (misalnya, jangan buat faktur kedua).

Replay adalah tombol pemulihan Anda. Itu kemampuan untuk memproses ulang event masa lalu dengan sengaja, dalam cara yang terkendali, setelah Anda memperbaiki bug atau setelah mitra mengalami outage. Replay berbeda dari retry: retry otomatis dan segera, replay disengaja dan sering terjadi beberapa jam atau hari kemudian.

Jika Anda menginginkan keandalan webhook, tetapkan beberapa tujuan sederhana dan rancang di sekitarnya:

Tidak ada event yang hilang (Anda selalu bisa menemukan apa yang tiba atau apa yang Anda coba kirim)
Duplikat aman (retry dan replay tidak menagih dua kali, tidak membuat dua entitas, atau mengirim dua email)
Jejak audit jelas (Anda bisa cepat menjawab "apa yang terjadi?")

Cara praktis untuk mendukung ketiganya adalah menyimpan setiap percobaan webhook dengan status dan kunci idempotensi unik. Banyak tim membangun ini sebagai tabel kecil "inbox/outbox webhook".

Inbound webhooks: alur penerima yang bisa Anda gunakan ulang

Sebagian besar masalah webhook terjadi karena pengirim dan penerima berjalan dengan jam yang berbeda. Tugas Anda sebagai penerima adalah menjadi dapat diprediksi: akui dengan cepat, catat apa yang tiba, dan proses dengan aman.

Pisahkan "terima" dari "melakukan kerja"

Mulailah dengan alur yang menjaga permintaan HTTP tetap cepat dan memindahkan kerja nyata ke tempat lain. Ini mengurangi timeout dan membuat retry jauh lebih sedikit menyakitkan.

Acknowledge cepat. Kembalikan 2xx segera setelah permintaan dapat diterima.
Periksa dasar-dasarnya. Validasi content type, field yang diperlukan, dan parsing. Jika webhook ditandatangani, verifikasi signature di sini.
Simpan event mentah. Simpan body serta header yang Anda perlukan nanti (signature, event ID), beserta timestamp penerimaan dan status seperti "received".
Antri pekerjaan. Buat job untuk pemrosesan latar belakang, lalu kembalikan 2xx.
Proses dengan hasil yang jelas. Tandai event "processed" hanya setelah side effect berhasil. Jika gagal, catat alasannya dan apakah perlu dicoba ulang.

Seperti apa "respon cepat"

Target realistis adalah merespons dalam waktu kurang dari satu detik. Jika pengirim mengharapkan kode tertentu, gunakan itu (banyak yang menerima 200, beberapa lebih suka 202). Kembalikan 4xx hanya ketika pengirim seharusnya tidak retry (seperti signature yang tidak valid).

Contoh: webhook "customer.created" tiba saat database Anda sedang padat. Dengan alur ini, Anda tetap menyimpan event mentah, mengantrikannya, dan menjawab 2xx. Worker Anda bisa retry nanti tanpa perlu pengirim mengirim ulang.

Pemeriksaan keamanan inbound yang tidak merusak pengiriman

Pemeriksaan keamanan layak dilakukan, tetapi tujuannya sederhana: blokir lalu lintas buruk tanpa memblokir event nyata. Banyak masalah pengiriman datang dari penerima yang terlalu ketat atau mengembalikan respons yang salah.

Mulailah dengan membuktikan pengirim. Lebih baik permintaan yang ditandatangani (header signature HMAC) atau token rahasia bersama di header. Verifikasi itu sebelum melakukan pekerjaan berat, dan gagal cepat jika hilang atau salah.

Hati-hati dengan kode status karena mereka mengontrol retry:

Kembalikan 401/403 untuk kegagalan otentikasi agar pengirim tidak retry selamanya.
Kembalikan 400 untuk JSON yang rusak atau field wajib yang hilang.
Kembalikan 5xx hanya ketika layanan Anda sementara tidak dapat menerima atau memproses.

Allowlist IP bisa membantu, tetapi hanya saat penyedia memiliki rentang IP yang stabil dan terdokumentasi. Jika IP mereka sering berubah (atau mereka menggunakan pool cloud yang besar), allowlist bisa diam-diam menjatuhkan webhook nyata dan Anda mungkin hanya menyadarinya jauh kemudian.

Jika penyedia menyertakan timestamp dan event ID unik, Anda bisa menambahkan proteksi replay: tolak pesan yang terlalu lama, dan lacak ID terbaru untuk mendeteksi duplikat. Jaga jendela waktu kecil, tetapi berikan masa tenggang sehingga pergeseran jam tidak memecahkan permintaan yang valid.

Checklist keamanan yang ramah penerima:

Validasi signature atau secret bersama sebelum parsing payload besar.
Terapkan ukuran body maksimum dan timeout permintaan yang singkat.
Gunakan 401/403 untuk kegagalan auth, 400 untuk JSON rusak, dan 2xx untuk event yang diterima.
Jika memeriksa timestamp, izinkan masa tenggang kecil (misalnya beberapa menit).

Untuk logging, simpan jejak audit tanpa menyimpan data sensitif selamanya. Simpan event ID, nama pengirim, waktu terima, hasil verifikasi, dan hash dari body mentah. Jika harus menyimpan payload, tetapkan batas retensi dan mask field seperti email, token, atau detail pembayaran.

Retry yang membantu, bukan merugikan

Jadikan replay sebagai perbaikan rutin

Buat panel admin internal untuk memeriksa, memutar ulang, dan menyelesaikan event yang gagal dengan aman.

Bangun Sekarang

Retry baik ketika mengubah gangguan singkat menjadi pengiriman sukses. Mereka berbahaya ketika menggandakan trafik, menyembunyikan bug nyata, atau menciptakan duplikat. Perbedaannya adalah aturan jelas tentang apa yang di-retry, bagaimana mengatur jeda, dan kapan berhenti.

Sebagai dasar, retry hanya saat penerima kemungkinan besar akan berhasil nanti. Model mental yang berguna: retry pada kegagalan "sementara", jangan retry pada kegagalan "Anda mengirim sesuatu yang salah".

Hasil HTTP praktis:

Retry: timeout jaringan, error koneksi, dan HTTP 408, 429, 500, 502, 503, 504
Jangan retry: HTTP 400, 401, 403, 404, 422
Tergantung: HTTP 409 (kadang "duplikat", kadang konflik nyata)

Jeda itu penting. Gunakan exponential backoff dengan jitter agar tidak menciptakan badai retry ketika banyak event gagal sekaligus. Contoh: tunggu 5s, 15s, 45s, 2m, 5m, lalu tambahkan offset acak kecil setiap kali.

Tentukan juga window retry maksimum dan batas tegas. Pilihan umum adalah "terus mencoba hingga 24 jam" atau "tidak lebih dari 10 percobaan". Setelah itu, anggap sebagai masalah pemulihan, bukan masalah pengiriman.

Agar ini bekerja sehari-hari, catatan event Anda harus menangkap:

Jumlah percobaan
Error terakhir
Waktu percobaan berikutnya
Status akhir (termasuk keadaan dead-letter ketika Anda berhenti retry)

Item dead-letter harus mudah diperiksa dan aman untuk diputar ulang setelah Anda memperbaiki masalah dasar.

Pola idempotensi yang bekerja dalam praktik

Idempotensi berarti Anda dapat memproses webhook yang sama lebih dari sekali tanpa membuat efek samping ekstra. Ini salah satu cara tercepat untuk meningkatkan keandalan, karena retry dan timeout akan terjadi bahkan ketika tidak ada yang salah.

Pilih kunci yang tetap stabil

Jika penyedia memberi Anda event ID, gunakan itu. Itu opsi paling bersih.

Jika tidak ada event ID, bangun kunci Anda sendiri dari field stabil yang Anda miliki, seperti hash dari:

nama penyedia + tipe event + resource ID + timestamp, atau
nama penyedia + message ID

Simpan kunci beserta sedikit metadata (waktu terima, penyedia, tipe event, dan hasil).

Aturan yang biasanya berjalan baik:

Perlakukan kunci sebagai wajib. Jika Anda tidak bisa membangunnya, karantina event daripada menebak.
Simpan kunci dengan TTL (misalnya 7 sampai 30 hari) agar tabel tidak tumbuh selamanya.
Simpan hasil pemrosesan juga (sukses, gagal, diabaikan) sehingga duplikat mendapat respons konsisten.
Beri constraint unik pada kunci sehingga dua permintaan paralel tidak keduanya berjalan.

Buat aksi bisnis juga idempoten

Bahkan dengan tabel kunci yang baik, operasi nyata Anda harus aman. Contoh: webhook "create order" tidak boleh membuat order kedua jika percobaan pertama timeout setelah insert database. Gunakan identifier bisnis natural (external_order_id, external_user_id) dan pola upsert.

Event tidak berurutan umum terjadi. Jika Anda menerima "user_updated" sebelum "user_created", tentukan aturan seperti "terapkan perubahan hanya jika event_version lebih baru" atau "hanya update jika updated_at lebih baru dari yang kita punya".

Duplikat dengan payload berbeda adalah kasus tersulit. Putuskan sebelumnya apa yang Anda lakukan:

Jika kunci cocok tetapi payload berbeda, anggap itu bug penyedia dan berikan alert.
Jika kunci cocok dan payload hanya berbeda pada field yang tidak relevan, abaikan.
Jika Anda tidak bisa mempercayai penyedia, beralih ke kunci turunan berdasarkan hash seluruh payload, dan tangani konflik sebagai event baru.

Tujuannya sederhana: satu perubahan dunia nyata harus menghasilkan satu hasil dunia nyata, bahkan jika Anda melihat pesan tiga kali.

Alat replay dan log audit untuk pemulihan

Tangani keamanan tanpa mengganggu pengiriman

Implementasikan pemeriksaan signature dan aturan status-code tanpa memblokir pengiriman nyata.

Coba AppMaster

Ketika sistem mitra fluktuatif, keandalan lebih tentang pemulihan cepat daripada pengiriman sempurna. Alat replay mengubah "kita kehilangan beberapa event" menjadi perbaikan rutin alih-alih krisis.

Mulailah dengan log event yang melacak lifecycle setiap webhook: received, processed, failed, atau ignored. Buat dapat dicari berdasarkan waktu, tipe event, dan correlation ID sehingga support bisa menjawab, "Apa yang terjadi pada order 18432?" dengan cepat.

Untuk setiap event, simpan konteks yang cukup untuk menjalankan keputusan yang sama nanti:

Payload mentah dan header kunci (signature, event ID, timestamp)
Field yang dinormalisasi yang Anda ekstrak
Hasil pemrosesan dan pesan error (jika ada)
Versi workflow atau mapping yang digunakan saat itu
Timestamp untuk menerima, mulai, selesai

Dengan itu, tambahkan aksi "Replay" untuk event yang gagal. Tombol itu kurang penting dibandingkan guardrail-nya. Alur replay yang baik menunjukkan error sebelumnya, apa yang akan terjadi saat replay, dan apakah event aman dijalankan ulang.

Guardrail yang mencegah kerusakan tidak sengaja:

Minta catatan alasan sebelum replay
Batasi hak replay ke peran kecil
Jalankan kembali melalui pemeriksaan idempotensi yang sama seperti percobaan pertama
Batasi laju replay agar tidak memicu lonjakan baru saat insiden
Mode dry run opsional yang memvalidasi tanpa menulis perubahan

Insiden sering melibatkan lebih dari satu event, jadi dukung replay berdasarkan rentang waktu (misalnya, "replay semua event gagal antara 10:05 dan 10:40"). Catat siapa mereplay apa, kapan, dan mengapa.

Outbound webhooks: alur pengirim yang bisa diaudit

Bangun pengirim yang dapat diprediksi

Kirim outbound webhook dengan ID event stabil, pelacakan per-endpoint, dan retry.

Buat Aplikasi

Outbound webhooks gagal karena alasan membosankan: penerima yang lambat, outage sebentar, masalah DNS, atau proxy yang memutus permintaan panjang. Keandalan datang dari memperlakukan setiap kiriman sebagai job yang dilacak dan dapat diulang, bukan panggilan HTTP sekali jalan.

Alur pengirim yang tetap terprediksi

Berikan setiap event ID yang stabil dan unik. ID itu harus tetap sama di seluruh retry, replay, dan bahkan restart layanan. Jika Anda menghasilkan ID baru untuk tiap percobaan, Anda membuat deduplikasi lebih sulit bagi penerima dan audit lebih sulit untuk Anda.

Selanjutnya, tanda tangani setiap permintaan dan sertakan timestamp. Timestamp membantu penerima menolak request yang sangat tua, dan signature membuktikan payload tidak diubah saat transit. Jaga aturan signature sederhana dan konsisten agar mitra dapat mengimplementasikannya tanpa tebak-tebakan.

Lacak pengiriman per endpoint, bukan hanya per event. Jika Anda mengirim event yang sama ke tiga pelanggan, setiap tujuan membutuhkan riwayat percobaan dan status akhir sendiri.

Alur praktis yang bisa diimplementasikan kebanyakan tim:

Buat record event dengan event ID, endpoint ID, payload hash, dan status awal.
Kirim permintaan HTTP dengan signature, timestamp, dan header kunci idempotensi.
Catat setiap percobaan (waktu mulai, waktu selesai, status HTTP, pesan error singkat).
Retry hanya pada timeout dan respons 5xx, gunakan exponential backoff dengan jitter.
Berhenti setelah batas jelas (maks percobaan atau umur maksimum), lalu tandai gagal untuk ditinjau.

Header kunci idempotensi itu penting bahkan ketika Anda pengirim. Ini memberi penerima cara bersih untuk dedupe jika mereka memproses permintaan pertama tetapi client Anda tidak menerima respons 200.

Terakhir, buat kegagalan terlihat. "Gagal" tidak boleh berarti "hilang". Itu harus berarti "ditunda dengan konteks cukup untuk diputar ulang dengan aman".

Contoh: sistem mitra yang fluktuatif dan pemulihan bersih

Aplikasi support Anda mengirim pembaruan tiket ke sistem mitra agar agen mereka melihat status yang sama. Setiap kali tiket berubah (ditugaskan, prioritas diperbarui, ditutup), Anda POST event webhook seperti ticket.updated.

Suatu sore endpoint mitra mulai timeout. Percobaan pengiriman pertama menunggu, mencapai batas timeout Anda, dan Anda menganggapnya sebagai "tidak diketahui" (mungkin sudah sampai, mungkin tidak). Strategi retry yang baik kemudian mengulang dengan backoff alih-alih memicu ulang setiap detik. Event tetap di antrean dengan event ID yang sama, dan setiap percobaan dicatat.

Bagian menyakitkan: jika Anda tidak menggunakan idempotensi, mitra bisa memproses duplikat. Percobaan #1 mungkin sudah sampai, tetapi respons mereka tidak pernah kembali. Percobaan #2 datang kemudian dan membuat action "Ticket closed" kedua, mengirim dua email atau membuat dua entri timeline.

Dengan idempotensi, setiap kiriman menyertakan kunci idempotensi yang diturunkan dari event (seringkali hanya event ID). Mitra menyimpan kunci itu untuk jangka waktu dan menjawab "sudah diproses" untuk pengulangan. Anda berhenti menebak.

Saat mitra akhirnya pulih, replay adalah cara memperbaiki satu pembaruan yang benar-benar hilang (misalnya perubahan prioritas selama outage). Anda ambil event dari log audit dan replay sekali, dengan payload dan kunci idempotensi yang sama, jadi aman bahkan jika mereka sudah menerimanya.

Selama insiden, log Anda harus membuat ceritanya jelas:

Event ID, ticket ID, tipe event, dan versi payload
Nomor percobaan, timestamp, dan waktu retry berikutnya
Timeout vs respons non-2xx vs sukses
Kunci idempotensi yang dikirim, dan apakah mitra melaporkan "duplicate"
Catatan replay yang menunjukkan siapa mereplay dan hasil akhirnya

Kesalahan umum dan jebakan yang harus dihindari

Tambahkan log audit webhook

Tambahkan jejak audit yang dapat dicari sehingga tim support bisa cepat menjawab "apa yang terjadi?".

Coba Sekarang

Sebagian besar insiden webhook bukan disebabkan satu bug besar. Mereka datang dari pilihan kecil yang diam-diam merusak keandalan saat trafik melonjak atau pihak ketiga menjadi fluktuatif.

Jebakan yang sering muncul di postmortem:

Melakukan kerja lambat di handler request (tulis database, panggilan API, upload file) sampai pengirim timeout dan retry
Mengasumsikan penyedia tidak pernah mengirim duplikat, lalu menggandakan tagihan, membuat dua order, atau mengirim dua email
Mengembalikan kode status yang salah (200 padahal Anda tidak menerima event, atau 500 untuk data yang tidak akan pernah sukses jika di-retry)
Mengirim tanpa correlation ID, event ID, atau request ID, lalu menghabiskan jam untuk mencocokkan log dengan laporan pelanggan
Retry tanpa batas, yang membangun backlog dan mengubah outage mitra menjadi outage Anda sendiri

Aturan sederhana yang tahan lama: akui cepat, lalu proses dengan aman. Validasi hanya apa yang Anda butuhkan untuk memutuskan apakah menerima event, simpan itu, lalu lakukan sisanya secara asinkron.

Kode status lebih penting daripada yang disangka orang:

Gunakan 2xx hanya ketika Anda telah menyimpan event (atau mengantrikannya) dan yakin akan ditangani.
Gunakan 4xx untuk input tidak valid atau auth gagal agar pengirim berhenti retry.
Gunakan 5xx hanya untuk masalah sementara di pihak Anda.

Tetapkan batas retry. Berhenti setelah jendela tetap (misalnya 24 jam) atau jumlah percobaan tetap, lalu tandai event sebagai "needs review" sehingga manusia bisa memutuskan apa yang harus direplay.

Checklist cepat dan langkah berikutnya

Keandalan webhook sebagian besar tentang kebiasaan yang dapat diulang: terima cepat, dedupe agresif, retry dengan hati-hati, dan punya jalur replay.

Pemeriksaan cepat inbound (penerima)

Kembalikan 2xx cepat setelah permintaan disimpan dengan aman (kerja lambat dijadikan async).
Simpan cukup event untuk membuktikan apa yang Anda terima (dan debug nanti).
Wajibkan kunci idempotensi (atau turunkan dari penyedia + event ID) dan tegakkan di database.
Gunakan 4xx untuk signature buruk atau skema tidak valid, dan 5xx hanya untuk masalah server nyata.
Lacak status pemrosesan (received, processed, failed) plus pesan error terakhir.

Pemeriksaan cepat outbound (pengirim)

Tetapkan event ID unik per event, dan jaga stabilitasnya di seluruh percobaan.
Tanda tangani setiap permintaan dan sertakan timestamp.
Definisikan kebijakan retry (backoff, maks percobaan, dan kapan berhenti) dan patuhi.
Lacak status per-endpoint: sukses terakhir, kegagalan terakhir, kegagalan berturut-turut, waktu retry berikutnya.
Log setiap percobaan dengan detail yang cukup untuk support dan audit.

Untuk operasi, tentukan dulu apa yang akan Anda replay (event tunggal, batch berdasarkan rentang waktu/status, atau keduanya), siapa yang bisa melakukannya, dan bagaimana rutinitas review dead-letter Anda.

Jika Anda ingin membangun bagian-bagian ini tanpa menyambungkannya semua secara manual, platform no-code seperti AppMaster (appmaster.io) bisa menjadi pilihan praktis: Anda bisa memodelkan tabel inbox/outbox webhook di PostgreSQL, mengimplementasikan alur retry dan replay di Business Process Editor secara visual, dan mengirim panel admin internal untuk mencari dan menjalankan kembali event yang gagal saat mitra fluktuatif tanpa menulis seluruh sistem secara manual.

FAQ

Webhooks berada di antar sistem yang tidak Anda kendalikan, sehingga Anda mewarisi timeout, outage, retry, dan perubahan skema dari mereka. Bahkan jika kode Anda benar, Anda masih bisa melihat duplikat, event yang hilang, keterlambatan, dan pengiriman yang tidak berurutan.

Rancang untuk menangani retry dan duplikasi sejak awal. Simpan setiap event masuk, jawab dengan 2xx cepat setelah event tercatat dengan aman, dan proses secara asinkron dengan kunci idempotensi agar pengiriman ulang tidak menggandakan efek samping.

Anda harus mengakui cepat setelah validasi dasar dan penyimpanan, biasanya dalam waktu di bawah satu detik. Jika Anda melakukan kerja lambat di dalam request, pengirim akan timeout dan retry, yang meningkatkan duplikat dan membuat insiden lebih sulit diurai.

Idempotensi berarti “lakukan aksi bisnis satu kali, meskipun pesan datang beberapa kali.” Terapkan dengan menggunakan kunci idempotensi yang stabil (seringkali ID event dari penyedia), menyimpannya, dan mengembalikan sukses untuk duplikat tanpa menjalankan aksi lagi.

Gunakan ID event penyedia bila tersedia. Jika tidak ada, turunkan kunci dari field stabil yang Anda percayai, dan hindari field yang bisa berubah antar percobaan. Jika Anda tidak bisa membangun kunci stabil, karantina event untuk ditinjau daripada menebak.

Kembalikan 4xx untuk masalah yang tidak bisa diperbaiki pengirim dengan retry, seperti autentikasi gagal atau payload yang rusak. Gunakan 5xx hanya untuk masalah sementara di sisi Anda. Konsistensi penting karena kode status sering mengontrol apakah pengirim akan retry.

Retry untuk timeout, error koneksi, dan respons server sementara seperti 408, 429, dan 5xx. Gunakan exponential backoff dengan jitter dan batas jelas, misalnya jumlah percobaan maksimum atau umur maksimum, lalu pindahkan event ke status “needs review.”

Replay adalah pemrosesan ulang sengaja atas event masa lalu setelah Anda memperbaiki bug atau pulih dari outage. Retry bersifat otomatis dan segera. Replay yang baik membutuhkan log event, pengecekan idempotensi yang aman, dan pengaman supaya Anda tidak menggandakan kerja secara tidak sengaja.

Asumsikan event akan datang tidak berurutan dan tentukan aturan sesuai domain Anda. Cara umum adalah hanya menerapkan perubahan bila event_version atau timestamp lebih baru dari yang tersimpan, sehingga kedatangan terlambat tidak menimpa status saat ini.

Buat tabel inbox/outbox webhook sederhana dan tampilan admin kecil untuk mencari, memeriksa, dan memutar ulang event yang gagal. Di AppMaster, Anda bisa memodelkan tabel ini di PostgreSQL, mengimplementasikan dedupe, retry, dan replay di Business Process Editor, dan merilis panel internal untuk support tanpa menulis seluruh sistem secara manual.