30 مارس 2025·7 دقيقة قراءة

قائمة فحص موثوقية الويبهوكس: إعادة المحاولة، عدم التكرار، إعادة التشغيل

قائمة فحص عملية لثقة الويبهوكس: إعادة المحاولة، مفاتيح عدم التكرار، سجلات إعادة التشغيل والمراقبة للاستجابات الواردة والصادرة عند فشل الشركاء.

لماذا تبدو الويبهوكس غير موثوقة في المشاريع الحقيقية

الويبهوكس صفقة بسيطة: نظام واحد يرسل طلب HTTP إلى نظام آخر عندما يحدث شيء. "الطلب شُحن"، "التذكرة تم تحديثها"، "الجهاز خرج عن الشبكة". إنها أساسًا إشعار دفع بين تطبيقات، يُسلّم عبر الويب.

تبدو موثوقة في العروض التوضيحية لأن المسار السعيد سريع ونظيف. في العمل الحقيقي، تقف الويبهوكس بين أنظمة لا تملكها: CRMs، مزودي الشحن، مكاتب المساعدة، أدوات التسويق، منصات إنترنت الأشياء، وحتى تطبيقات داخلية تملكها فرق أخرى. خارج المدفوعات، غالبًا ما تفقد ضمانات تسليم ناضجة، مخططات أحداث مستقرة، وسلوك إعادة محاولة متسق.

العلامات الأولى عادة ما تكون مربكة:

أحداث مكررة (نفس التحديث يصل مرتين)
أحداث مفقودة (حدث تغيير لكنك لم تسمع به)
تأخيرات (يصل التحديث بعد دقائق أو ساعات)
أحداث خارج الترتيب (يصل تحديث "مغلق" قبل "مفتوح")

الأنظمة الخارجية المتقلبة تجعل هذا يبدو عشوائيًا لأن الفشل ليس دائمًا واضحًا. قد ينتهي المزود بالمهلة لكنه لا يزال يعالج طلبك. قد يفقد موزع التحميل الاتصال بعد أن أعاد المُرسل المحاولة. أو قد يتعطل نظامهم لفترة قصيرة ثم يرسل دفعة من الأحداث القديمة دفعة واحدة.

تخيل شريك شحن يرسل ويبهوكس "تم التسليم". يومًا ما يصبح المستقبل لديك بطيئًا لمدة 3 ثوانٍ، فيُعيدون المحاولة. تستقبل تدويرتين، يحصل عميلك على بريدين إلكترونيين، ويصاب الدعم بالحيرة. في اليوم التالي يكون لديهم انقطاع ولا يعيدون المحاولة أبدًا، فيظل "تم التسليم" مفقودًا ولوحتك متوقفة.

موثوقية الويبهوكس أقل عن طلب مثالي واحد وأكثر عن التصميم لواقع فوضوي: إعادة المحاولات، عدم التكرار، والقدرة على إعادة التشغيل والتحقق لاحقًا.

اللبنات الثلاث: إعادة المحاولات، عدم التكرار، إعادة التشغيل

الويبهوكس تسير في اتجاهين. الويبهوكس الواردة هي المكالمات التي تستقبلها من طرف آخر (مزود مدفوعات، CRM، أداة شحن). الويبهوكس الصادرة هي المكالمات التي ترسلها إلى عميلك أو شريكك عندما يتغير شيء في نظامك. كلاهما يمكن أن يفشل لأسباب لا علاقة لها بكودك.

إعادة المحاولات هي ما يحدث بعد فشل. قد يعيد المرسل المحاولة لأنه تلقى مهلة، خطأ 500، فقدان اتصال، أو لا استجابة بسرعة كافية. إعادة المحاولات الجيدة سلوك متوقع، ليست حالة هامشية نادرة. الهدف هو إيصال الحدث دون إغراق المستقبل أو خلق تأثيرات جانبية مكررة.

عدم التكرار هو كيف تجعل التكرارات آمنة. يعني "نفّذ مرة واحدة، حتى لو استلمته مرتين". إذا وصل نفس الويبهوكس مرة أخرى، تكشفه وترد استجابة نجاح دون تشغيل الإجراء التجاري مرة ثانية (مثلاً، لا تنشئ فاتورة ثانية).

إعادة التشغيل هي زر الاسترداد. هي القدرة على إعادة معالجة أحداث سابقة عمدًا، بطريقة خاضعة للضبط، بعد إصلاح خطأ أو بعد انقطاع لدى الشريك. إعادة التشغيل تختلف عن إعادة المحاولة: إعادة المحاولة تلقائية وفورية، بينما إعادة التشغيل مقصودة وغالبًا ما تحدث بعد ساعات أو أيام.

إذا أردت موثوقية الويبهوكس، ضع بعض الأهداف البسيطة وصمم حولها:

لا أحداث مفقودة (يمكنك دائمًا إيجاد ما وصل أو ما حاولت إرساله)
تكرارات آمنة (إعادة المحاولات وإعادة التشغيل لا تفرض رسومًا مزدوجة أو تنشئ عناصر مكررة أو ترسل بريدين)
أثر تدقيق واضح (يمكنك الإجابة على "ماذا حدث؟" بسرعة)

طريقة عملية لدعم الثلاثة هي تخزين كل محاولة ويبهوكس مع حالة ومفتاح عدم تكرار فريد. كثير من الفرق تبني هذا كجدول صغير "صندوق وارد/صادر" للويبهوكس.

الويبهوكس الواردة: تدفق مستقبل يمكنك إعادة استخدامه

معظم مشاكل الويبهوكس تحدث لأن المرسل والمستقبل يعملان على ساعات مختلفة. مهمتك كمستقبل هي أن تكون متوقّعًا: اعترف بسرعة، سجل ما وصل، وعالجه بأمان.

فصل "القبول" عن "تنفيذ العمل"

ابدأ بتدفق يحافظ على طلب HTTP سريعًا وينقل العمل الحقيقي لمكان آخر. هذا يقلل انتهاء المهلات ويجعل إعادة المحاولات أقل إيلامًا.

اعترف بسرعة. أعد 2xx بمجرد قبول الطلب.
تحقق من الأساسيات. تحقق من نوع المحتوى، الحقول المطلوبة، والقدرة على التحليل. إذا كان الويبهوكس موقعًا، تحقق من التوقيع هنا.
خزن الحدث الخام. خزّن الجسم مع رؤوس تحتاجها لاحقًا (التوقيع، معرف الحدث)، مع طابع زمن الاستلام وحالة مثل "مستلم".
ضع العمل في قائمة انتظار. أنشئ وظيفة للمعالجة في الخلفية، ثم أعد 2xx.
عالج بنتائج واضحة. علّم الحدث "معالج" فقط بعد نجاح التأثيرات الجانبية. إن فشل، سجل السبب وما إذا كان يجب إعادة المحاولة.

شكل "الرد السريع"

هدف واقعي هو الرد في أقل من ثانية. إذا كان المرسل يتوقع رمز محدد، استخدمه (الكثيرون يقبلون 200، بعضهم يفضّل 202). أعد 4xx فقط عندما ينبغي ألا يعيد المرسل المحاولة (مثل توقيع غير صالح).

مثال: يصل ويبهوكس "customer.created" بينما قاعدة بياناتك تحت حمل. بهذا التدفق، لا تزال تخزن الحدث الخام، تضيفه إلى طابور، وتُجيب 2xx. عامل الخلفية يمكنه إعادة المحاولة لاحقًا دون حاجة المرسل لإرسال مرة أخرى.

فحوصات الأمان الواردة التي لا تكسر التسليم

فحوصات الأمان مهمة، لكن الهدف بسيط: حظر حركة ضارة دون حظر الأحداث الحقيقية. كثير من مشاكل التسليم تأتي من مستقبلين صارمين جدًا أو إرجاع رموز استجابة خاطئة.

ابدأ بإثبات المُرسل. فضّل الطلبات الموقعة (رأس توقيع HMAC) أو رمز سري مشترك في رأس. تحقق منه قبل القيام بعمل كبير، وفشل بسرعة إن كان مفقودًا أو خاطئًا.

كن حذرًا مع رموز الحالة لأن لها سيطرة على إعادة المحاولات:

أعد 401/403 لفشل المصادقة حتى لا يعيد المرسل المحاولة إلى الأبد.
أعد 400 لـ JSON المعيب أو الحقول المطلوبة المفقودة.
أعد 5xx فقط عندما تكون خدمتك غير قادرة مؤقتًا على القبول أو المعالجة.

قوائم السماح بعناوين IP يمكن أن تساعد، لكن فقط عندما يكون لدى المزود نطاقات IP مستقرة وموثقة. إذا تغيّرت عناوين IP الخاصة بهم كثيرًا (أو يستخدمون مجموعة سحابية كبيرة)، قد تُسقط قوائم السماح الويبهوكس الحقيقية بهدوء وقد لا تلاحظ ذلك إلا لاحقًا.

إذا أدرج المزود طابعًا زمنيًا ومعرف حدث فريد، يمكنك إضافة حماية من إعادة التشغيل: ارفض الرسائل القديمة جدًا، وتتبّع المعرفات الحديثة لرصد التكرارات. اجعل نافذة الوقت صغيرة، لكن اترك فترة سماح صغيرة حتى لا يكسر انحراف الساعة الطلبات الصالحة.

قائمة فحص صديقة للمستقبل للأمن:

تحقق من التوقيع أو السر المشترك قبل تحليل الأحمال الكبيرة.
فرض حد أقصى لحجم الجسم ووقت اتصال قصير.
استخدم 401/403 لفشل المصادقة، 400 لـ JSON المعيب، و2xx للأحداث المقبولة.
إن تحققت من الطوابع الزمنية، اسمح بفترة سماح صغيرة (مثلاً بضع دقائق).

للغرض التتبعي، احتفظ بأثر تدقيق دون حفظ بيانات حساسة إلى الأبد. خزّن معرف الحدث، اسم المُرسل، وقت الاستلام، نتيجة التحقق، وهاش من الجسم الخام. إذا ضطُررت لتخزين الحمولات، ضع حدًا للاحتفاظ وقم بقناع الحقول مثل البريد الإلكتروني، الرموز، أو تفاصيل الدفع.

إعادة المحاولات التي تساعد ولا تضر

بناء صندوق ويبهوكس بسرعة

بناء صندوق وارد/صادر للويبهوكس بمفاتيح عدم التكرار وحالات واضحة في دقائق.

Try AppMaster

إعادة المحاولات جيدة عندما تحول عقبة قصيرة إلى تسليم ناجح. تكون ضارة عندما تضاعف حركة المرور، تخفي أخطاء حقيقية، أو تخلق تكرارات. الفرق هو وجود قاعدة واضحة لما يُعاد المحاولة، كيفية تباعد المحاولات، ومتى تتوقف.

كخط أساسي، أعد المحاولة فقط عند احتمال نجاح المستقبل لاحقًا. نموذج ذهني مفيد: أعد المحاولة على الأخطاء "المؤقتة"، لا تُعد المحاولة على "أرسلت شيئًا خاطئًا".

نتائج HTTP العملية:

أعد المحاولة: انتهاء مهلة الشبكة، أخطاء الاتصال، وHTTP 408، 429، 500، 502، 503، 504
لا تُعد المحاولة: HTTP 400، 401، 403، 404، 422
يعتمد: HTTP 409 (أحيانًا "مكرر"، أحيانًا صراع حقيقي)

التباعد مهم. استخدم تراجعًا أُسّيًا مع jitter حتى لا تخلق عاصفة محاولات عندما تفشل أحداث كثيرة مرة واحدة. مثال: انتظر 5س، 15س، 45س، 2د، 5د، ثم أضف إزاحة عشوائية صغيرة كل مرة.

أيضًا حدِّد نافذة إعادة محاولة قصوى وقاطع واضح. اختيارات شائعة: "استمر بالمحاولة حتى 24 ساعة" أو "لا تزيد عن 10 محاولات". بعد ذلك اعتبرها مشكلة استرداد، لا مشكلة تسليم.

لكي يعمل هذا يومًا بعد يوم، يجب أن يلتقط سجل الحدث لديك:

عدد المحاولات
آخر خطأ
وقت المحاولة التالي
الحالة النهائية (بما في ذلك حالة الحقيبة الميتة عند التوقف عن المحاولة)

العناصر في الحقيبة الميتة يجب أن تكون سهلة الفحص وآمنة لإعادة التشغيل بعد إصلاح المشكلة الأساسية.

أنماط عدم التكرار التي تعمل عمليًا

عدم التكرار يعني أنه يمكنك معالجة نفس الويبهوكس مرات متعددة بأمان من دون خلق تأثيرات جانبية إضافية. إنها واحدة من أسرع الطرق لتحسين الموثوقية، لأن إعادة المحاولات والمهمات الزمنية ستحدث حتى عندما لا يفعل أحد شيئًا خاطئًا.

اختر مفتاحًا ثابتًا

إذا قدّم المزود معرف حدث، فاستخدمه. هذا الخيار الأنظف.

إن لم يكن هناك معرف حدث، ابنِ مفتاحك الخاص من الحقول الثابتة التي لديك، مثل هاش من:

اسم المزود + نوع الحدث + معرف المورد + الطابع الزمني، أو
اسم المزود + معرف الرسالة

خزّن المفتاح مع كمية صغيرة من البيانات الوصفية (وقت الاستلام، المزود، نوع الحدث، والنتيجة).

قواعد تبقى صالحة عادةً:

اعتبر المفتاح مطلوبًا. إن لم تستطع بناؤه، ضَع الحدث في حجر صحي بدل التخمين.
خزّن المفاتيح مع TTL (مثلاً 7 إلى 30 يومًا) حتى لا ينمو الجدول إلى الأبد.
احفظ نتيجة المعالجة أيضًا (نجاح، فشل، متجاهل) حتى تحصل التكرارات على استجابة متسقة.
ضع قيدًا فريدًا على المفتاح حتى لا تقوم طلبتان متوازيتان بتنفيذهما كلاهما.

اجعل الإجراء التجاري نفسه غير متكرر أيضًا

حتى مع جدول مفاتيح جيد، يجب أن تكون العمليات الحقيقية آمنة. مثال: لا ينبغي أن ينشئ ويبهوكس "create order" طلبًا ثانيًا إذا انتهت المحاولة الأولى بمهلة بعد إدخال السجل في قاعدة البيانات. استخدم معرفات تجارية طبيعية (external_order_id, external_user_id) وأنماط upsert.

الأحداث الخارجة عن الترتيب شائعة. إذا استقبلت "user_updated" قبل "user_created"، قرر قاعدة مثل "طبق التغييرات فقط إذا كان event_version أحدث" أو "قم بالتحديث فقط إذا كان updated_at أحدث مما لدينا".

التكرارات مع حمولات مختلفة هي الأصعب. قرر مقدمًا كيف تتصرف:

إذا تطابق المفتاح لكن الحمولة تختلف، اعتبرها خطأ من المزود وابدأ تنبيهًا.
إذا تطابق المفتاح والحمولة تختلف فقط في حقول غير مهمة، تجاهلها.
إذا لم تعد تثق بالمزود، انتقل لمفتاح مشتق من هاش الحمولة الكاملة، وتعامل مع التعارضات كأحداث جديدة.

الهدف بسيط: تغيير واحد في العالم الواقعي يجب أن يؤدي إلى نتيجة واحدة في العالم الواقعي، حتى لو رأيت الرسالة ثلاث مرات.

أدوات إعادة التشغيل وسجلات التدقيق للاسترداد

أضف سجلات تدقيق للويبهوكس

أضف سجل تدقيق قابل للبحث ليتمكن الدعم من الإجابة على “ماذا حصل؟” بسرعة.

Try Now

عندما يكون نظام شريك متقلبًا، تصبح الموثوقية أقل عن التسليم المثالي وأكثر عن الاسترداد السريع. أداة إعادة التشغيل تحوّل "فقدنا بعض الأحداث" إلى إصلاح روتيني بدل أزمة.

ابدأ بسجل أحداث يتتبع دورة حياة كل ويبهوكس: مستلم، معالج، فشل، أو متجاهل. اجعله قابلاً للبحث بالزمن، نوع الحدث، ومعرف الارتباط حتى يتمكن الدعم من الإجابة، "ماذا حدث للطلب 18432؟" بسرعة.

لكل حدث، خزّن ما يكفي من السياق لإعادة تنفيذ نفس القرار لاحقًا:

الحمولة الخام ورؤوس المفتاح (التوقيع، معرف الحدث، الطابع الزمني)
الحقول المعيارية التي استخرجتها
نتيجة المعالجة ورسالة الخطأ (إن وُجدت)
إصدار سير العمل أو التعيين المستخدم وقتها
الأوقات لطبع الاستلام، البدء، والانتهاء

مع ذلك، أضف فعل "إعادة التشغيل" للأحداث الفاشلة. الزر أقل أهمية من ضوابط الحماية. يوضح مسار إعادة التشغيل الجيد الخطأ السابق، ما سيحدث عند إعادة التشغيل، وما إذا كان الحدث آمنًا لإعادة التشغيل.

حواجز تمنع الضرر العرضي:

اشتراط ملاحظة سبب قبل إعادة التشغيل
تقييد صلاحيات إعادة التشغيل إلى دور صغير
إعادة التشغيل عبر نفس فحوصات عدم التكرار كما في المحاولة الأولى
تحديد معدل إعادة التشغيل لتجنب دفعة جديدة أثناء الحوادث
وضع تشغيل تجريبي اختياري يتحقق دون كتابة تغييرات

الحوادث غالبًا ما تنطوي على أكثر من حدث واحد، لذا قدّم إعادة تشغيل بنطاق زمني (مثلاً "أعد تشغيل كل الأحداث الفاشلة بين 10:05 و10:40"). سجّل من أعاد وماذا ومتى ولماذا.

الويبهوكس الصادرة: تدفق مرسل يمكنك مراجعته

نمذجة بيانات الحدث بشكل واضح

نمذج جداول أحداث الويبهوكس في PostgreSQL وحافظ على تناسق المخططات مع تغيّر الشركاء.

Start Now

تفشل الويبهوكس الصادرة لأسباب مملة: مستقبل بطيء، انقطاع مؤقت، مشكلة DNS، أو وكيل يقطع الطلبات الطويلة. تأتي الموثوقية من معاملة كل إرسال كوظيفة متتبعة قابلة للإعادة، وليس مكالمة HTTP لمرة واحدة.

تدفق مرسل يبقى متوقعًا

امنح كل حدث معرف حدث ثابت وفريد. يجب أن يبقى هذا المعرف نفسه عبر المحاولات، وإعادة التشغيل، وحتى إعادة تشغيل الخدمة. إذا أنشأت معرفًا جديدًا لكل محاولة، تجعل إزالة التكرار أصعب للمستقبل وتجعل التدقيق أصعب عليك.

بعد ذلك، وقّع كل طلب وأدرج طابعًا زمنيًا. يساعد الطابع الزمني المستقبل على رفض الطلبات القديمة جدًا، ويثبت التوقيع أن الحمولة لم تُغيّر في الطريق. احفظ قواعد التوقيع بسيطة ومتسقة حتى يتمكن الشركاء من تنفيذها بسهولة.

تتبّع التسليمات لكل نقطة نهاية، ليس فقط لكل حدث. إذا أرسلت نفس الحدث إلى ثلاثة عملاء، كل وجهة تحتاج تاريخ محاولاتها وحالتها النهائية الخاصة.

تدفق عملي يمكن لمعظم الفرق تنفيذه:

أنشئ سجل حدث مع معرف الحدث، معرف الوجهة، هاش الحمولة، والحالة الأولية.
أرسل طلب HTTP مع توقيع، طابع زمني، ورأس مفتاح عدم التكرار.
سجّل كل محاولة (وقت البدء، وقت الانتهاء، حالة HTTP، رسالة خطأ قصيرة).
أعد المحاولة فقط على انتهاء المهلة واستجابات 5xx، مستخدمًا تراجعًا أُسّيًا مع jitter.
أوقف بعد حد واضح (حد أقصى للمحاولات أو عمر أقصى)، ثم علّمه كفشل للمراجعة.

رأس مفتاح عدم التكرار هذا مهم حتى عندما تكون أنت المرسل. يعطي المستقبل طريقة نظيفة لإزالة التكرار إن عالج المحاولة الأولى لكن عميلك لم يتلق 200.

أخيرًا، اجعل الفشل مرئيًا. "فشل" لا يعني "مفقود". يجب أن يعني "معلّق مع سياق كافٍ لإعادة التشغيل بأمان".

مثال: نظام شريك متقلب واسترداد نظيف

تطبيق الدعم لديك يرسل تحديثات التذاكر إلى نظام شريك حتى يرى وكلاؤهم نفس الحالة. كلما تغيرت تذكرة (تعيين، تحديث أولوية، إغلاق)، تنشر حدث ويبهوكس مثل ticket.updated.

في أحد الظهيرات تبدأ نقطة نهاية الشريك بالمهلة. محاولة التسليم الأولى تنتظر، تتجاوز حد وقت الانتظار في نظامك، وتتعامل معها كـ "غير معروف" (قد تكون وصلت إليهم أو لا). استراتيجية إعادة المحاولة الجيدة تعيد المحاولة بتراجع بدل الإرسال كل ثانية. يظل الحدث في طابور بنفس معرف الحدث، وتُسجّل كل محاولة.

الجزء المؤلم: إن لم تستخدم عدم التكرار، قد يعالج الشريك التكرارات. قد تكون المحاولة #1 قد وصلت إليهم لكن ردهم لم يصل. المحاولة #2 تأتي لاحقًا وتُنشئ "تذكرة مغلقة" ثانية، ترسل بريدين أو تنشئ مدخلين في السجل.

مع عدم التكرار، يتضمن كل إرسال مفتاح عدم التكرار مستمد من الحدث (غالبًا معرف الحدث نفسه). يخزن الشريك ذلك المفتاح لفترة ويرد "معالج بالفعل" للتكرارات. تتوقف عن التخمين.

عندما يعود الشريك أخيرًا، إعادة التشغيل هي كيف تصلح التحديث الذي فقد فعلاً (مثل تغيّر أولوية أثناء الانقطاع). تختار الحدث من سجل التدقيق وتعيد تشغيله مرة، بنفس الحمولة ومفتاح عدم التكرار، ليكون آمنًا حتى إن كانوا قد استلموه بالفعل.

أثناء الحادث، يجب أن تجعل سجلاتك القصة واضحة:

معرف الحدث، معرف التذكرة، نوع الحدث، وإصدار الحمولة
رقم المحاولة، الطوابع الزمنية، ووقت المحاولة التالي
انتهاء مهلة مقابل استجابة غير 2xx مقابل نجاح
مفتاح عدم التكرار المرسل، وما إذا أفاد الشريك بـ "مكرر"
سجل إعادة التشغيل من يفعله والنتيجة النهائية

أخطاء شائعة وفخاخ يجب تجنّبها

مراقبة الأخطاء في مكان واحد

بناء لوحة تشغيلية جاهزة لمتابعة أحداث الحقيبة الميتة والتعافي بسرعة.

Create Project

معظم حوادث الويبهوكس ليست نتيجة خطأ كبير واحد. تأتي من خيارات صغيرة تكسر الموثوقية بهدوء عندما يتزايد الحمل أو يصبح طرف ثالث متقلبًا.

الفخاخ التي تظهر بعد التحليل:

تنفيذ عمل بطيء داخل معالج الطلب (كتابات قاعدة البيانات، مكالمات API، رفع ملفات) حتى ينتهي وقت المرسل وتعيد المحاولة
افتراض أن المزودين لا يرسلون تكرارات، ثم فرض رسوم مزدوجة، إنشاء طلبات مكررة، أو إرسال بريدين
إعادة رموز الحالة الخاطئة (200 حتى عندما لم تقبل الحدث، أو 500 لبيانات سيئة لن تنجح عند إعادة المحاولة)
الشحن دون معرف ارتباط، معرف حدث، أو معرف طلب، ثم قضاء ساعات في مطابقة السجلات لتقارير العملاء
إعادة المحاولة إلى الأبد، مما يبني تراكمًا ويحيل انقطاع الشريك إلى انقطاع لديك

قاعدة بسيطة تصمد: اعترف بسرعة، ثم عالج بأمان. تحقق فقط مما تحتاجه لتقرر قبول الحدث، خزّنه، ثم قم بالباقي بشكل غير متزامن.

رموز الحالة لها وزن أكثر مما يتوقع معظم الناس:

استخدم 2xx فقط عندما خزّنت الحدث (أو وضعته في قائمة انتظار) وكنت واثقًا من أنه سيُعالج.
استخدم 4xx لمدخلات غير صالحة أو فشل مصادقة حتى يتوقف المرسل عن المحاولة.
استخدم 5xx فقط للمشاكل المؤقتة على جانبك.

حدد سقفًا لإعادة المحاولة. توقف بعد نافذة ثابتة (مثل 24 ساعة) أو عدد محاولات محدد، ثم علّم الحدث بأنه "بحاجة إلى مراجعة" حتى يقرر إنسان ما سيُعاد تشغيله.

قائمة فحص سريعة وخطوات مقبلة

موثوقية الويبهوكس تدور أساسًا حول عادات قابلة للتكرار: اقبل بسرعة، ازل التكرار بقوة، أعد المحاولة بعناية، واحفظ مسارًا لإعادة التشغيل.

فحوصات سريعة واردة (مستقبل)

أعد بسرعة 2xx بمجرد تخزين الطلب بأمان (قم بالأعمال البطيئة بشكل غير متزامن).
خزّن ما يكفي من الحدث لإثبات ما استلمته (ولتصحيح الأخطاء لاحقًا).
اطلب مفتاح عدم التكرار (أو استخرجه من مزود + معرف الحدث) وفرضه في قاعدة البيانات.
استخدم 4xx لتوقيع خاطئ أو مخطط غير صالح، و5xx فقط لمشاكل الخادم الحقيقية.
تتبع حالة المعالجة (مستلم، معالج، فشل) بالإضافة لآخر رسالة خطأ.

فحوصات سريعة صادرة (مرسل)

خصص معرف حدث فريد لكل حدث، واحتفظ به ثابتًا عبر المحاولات.
وقع كل طلب وأدرج طابعًا زمنيًا.
عرّف سياسة إعادة محاولات (تراجع، حد محاولات، ومتى تتوقف) والتزم بها.
تتبّع حالة كل وجهة: آخر نجاح، آخر فشل، الأخطاء المتتالية، وقت المحاولة التالي.
سجّل كل محاولة بتفاصيل كافية للدعم والتدقيق.

للعمليات، قرر مسبقًا ما ستُعيد تشغيله (حدث منفرد، دفعة حسب نطاق زمني/حالة، أو الاثنين)، من يستطيع فعل ذلك، وما روتين مراجعة الحقيبة الميتة.

إن رغبت ببناء هذه القطع دون ربط كل شيء يدويًا، فإن منصة no-code مثل AppMaster (appmaster.io) قد تكون مناسبة عملية: يمكنك نمذجة جداول وارد/صادر الويبهوكس في PostgreSQL، تنفيذ تدفقات إعادة المحاولة وإعادة التشغيل بصريًا في محرر العمليات، وشحن لوحة إدارية داخلية للبحث وإعادة تشغيل الأحداث الفاشلة عند تقلب الشركاء.

الأسئلة الشائعة

الويبهوكس تعمل بين أنظمة لا تملكها، لذلك ترث أزمان انتهاء الصلاحية، والانقطاعات، وإعادة المحاولات، وتغيّر المخططات من مزودي الخدمة. حتى لو كان الكود لديك صحيحًا، قد ترى تكرارات، أحداث مفقودة، تأخيرات، وتسليمات خارج الترتيب.

صمم للتعامل مع إعادة المحاولة والتكرارات منذ البداية. خزّن كل حدث وارد، أجب بسرعة بـ 2xx بعد تسجيله بأمان، وعالجه بشكل غير متزامن مع مفتاح عدم التكرار حتى لا تُنفّذ التأثيرات الجانبية عند وصول التكرارات.

عليك بالاعتراف بسرعة بعد التحقق الأساسي والتخزين، عادة في أقل من ثانية. إذا فعلت أعمالًا بطيئة داخل الطلب سيؤدي ذلك إلى انتهاء مهلة المرسل وإعادة المحاولة، مما يزيد التكرارات ويصعّب تتبع الحوادث.

عامل عدم التكرار على أنه “نفّذ إجراء العمل مرة واحدة حتى لو وصلت الرسالة عدة مرات.” تطبقه باستخدام مفتاح عدم تكرار ثابت (غالبًا معرف الحدث من المزود)، تخزّنه، وتُعيد نجاحًا للتكرارات دون تشغيل الإجراء مرة أخرى.

استخدم معرف الحدث من المزود إن وُجد. إن لم يوجد، استخرج مفتاحًا من حقول ثابتة تثق بها، وتجنّب الحقول التي قد تتغير بين المحاولات. إذا لم تستطع بناء مفتاح ثابت، ضع الحدث في حجر صحي للمراجعة بدل التخمين.

أعد 4xx للمشاكل التي لا يمكن للمرسل إصلاحها بإعادة المحاولة، مثل فشل المصادقة أو الحمولة المعيبة. استخدم 5xx فقط للمشاكل المؤقتة على جانبك. كن متسقًا لأن رمز الحالة غالبًا ما يحدد ما إذا كان المرسل سيُعيد المحاولة.

أعد المحاولة عند انتهاء المهلة، أخطاء الاتصال، واستجابات الخادم المؤقتة مثل 408، 429، و5xx. استخدم تراجعًا أُسّيًا مع jitter وحد أقصى واضح (عدد محاولات أو عمر أقصى)، ثم حوّل الحدث إلى حالة “يحتاج مراجعة”.

إعادة التشغيل هي إعادة معالجة مقصودة لأحداث سابقة بعد إصلاح خطأ أو التعافي من انقطاع. إعادة المحاولة تلقائية وفورية. إعادة التشغيل الجيدة تحتاج سجل أحداث، تحقق من عدم التكرار بأمان، وحواجز تمنع تكرار العمل عن طريق الخطأ.

افترض أنك ستحصل على أحداث خارج الترتيب وقرر قاعدة تتناسب مع نطاق عملك. نهج شائع هو تطبيق التحديثات فقط عندما يكون event_version أو الطابع الزمني أحدث مما خزّنته بالفعل، حتى لا تحل وصولات متأخرة محل الحالة الحالية.

ابنِ جدول وارد/صادر بسيط ولوحة إدارة صغيرة للبحث، الفحص، وإعادة تشغيل الأحداث الفاشلة. في AppMaster (appmaster.io)، يمكنك نمذجة هذه الجداول في PostgreSQL، تنفيذ منطق التحقق من التكرار، إعادة المحاولة، وإعادة التشغيل في محرر العمليات، وشحن لوحة داخلية للدعم دون كتابة كل شيء يدويًا.