02 déc. 2025·8 min de lecture

PostgreSQL vs CockroachDB pour la disponibilité multi-région

PostgreSQL vs CockroachDB : comparaison pratique de la cohérence, de la latence, des changements de schéma et des coûts opérationnels réels d'une mise en multi-région précoce.

Quel problème essayez-vous vraiment de résoudre ?

« Disponibilité multi-région » est utilisé pour désigner plusieurs objectifs différents. Mélanger ces objectifs conduit souvent les équipes à choisir la mauvaise base de données.

Avant de comparer PostgreSQL et CockroachDB, notez (1) la panne spécifique que vous voulez survivre et (2) ce que les utilisateurs doivent éprouver pendant cette panne.

La plupart des équipes poursuivent un mélange de :

Une disponibilité plus élevée quand une région tombe (basculement)
Des réponses plus rapides pour les utilisateurs éloignés de votre région principale (latence plus faible)
Des règles de données liées à la géographie (localité ou résidence)
Un comportement prévisible sous charge, pas seulement dans des tests en conditions idéales

L'objectif commun est simple : un client sur un autre continent doit toujours obtenir des résultats rapides et corrects.

Le plus dur est que « rapide » et « correct » peuvent entrer en conflit dès que vous répartissez les écritures entre régions. Une cohérence plus forte nécessite généralement plus de coordination inter-régions, et cela ajoute de la latence. Réduire la latence implique souvent de lire depuis une copie locale ou d'utiliser une réplication asynchrone, ce qui peut produire des lectures périmées ou un traitement de conflits dont votre équipe devient responsable.

Un exemple concret : un utilisateur en Allemagne met à jour son adresse de livraison puis finalise immédiatement sa commande. Si le paiement lit depuis une réplique aux États-Unis qui a quelques secondes de retard, la commande peut utiliser l'ancienne adresse. Certains produits tolèrent cela avec une UX claire et des tentatives supplémentaires. D'autres (paiements, inventaire, conformité) ne peuvent pas.

Il n'y a pas de meilleur choix universel. La bonne réponse dépend de ce qui ne doit jamais être faux, de ce qui peut être un peu plus lent, et de la complexité opérationnelle que votre équipe peut gérer au quotidien.

Deux approches pour être « disponible dans plusieurs régions »

Quand on compare PostgreSQL et CockroachDB pour l'usage multi-région, on compare souvent deux architectures différentes.

Avec PostgreSQL, la configuration la plus courante est à primaire unique. Une région est la « maison » où les écritures se produisent. Les autres régions exécutent des réplicas de lecture qui copient les changements depuis le primaire. Si la région primaire tombe, vous promouvez un réplica et pointez l'application dessus. Bien fait, cela peut très bien fonctionner, mais le système reste organisé autour d'un emplacement principal d'écriture plus un plan de basculement délibéré.

Avec des systèmes SQL distribués comme CockroachDB, la base est conçue pour répartir les données et la responsabilité entre les régions dès le départ. Les données sont copiées sur plusieurs nœuds, et le cluster s'accorde sur l'ordre des écritures. Vous pouvez souvent placer certaines données plus près des utilisateurs dans différentes régions tout en gardant une seule base logique.

Ce qui change pour l'équipe applicative concerne moins la syntaxe SQL et davantage les attentes :

Écritures : les écritures PostgreSQL sont les plus rapides près du primaire. Les écritures CockroachDB nécessitent souvent l'accord de plusieurs réplicas, ce qui peut inclure une confirmation inter-régions.
Lectures : PostgreSQL peut servir des lectures locales depuis des réplicas (au prix d'une éventuelle périssabilité). CockroachDB peut fournir des lectures cohérentes, mais peut payer un coût de coordination selon l'emplacement des données.
Pannes : le basculement PostgreSQL est un commutateur à déclencher et gérer. CockroachDB est conçu pour continuer à fonctionner malgré certaines pannes régionales, mais seulement dans le cadre de ses règles de réplication et de quorum.

L'exigence cachée est la correction pendant les pannes. Si vous pouvez tolérer des lectures brièvement périmées, ou une courte pause d'écriture pendant un basculement, PostgreSQL en primaire unique peut convenir. Si vous devez que le système reste correct et écrivable pendant qu'une région est hors service, vous acceptez le coût de coordination d'une base distribuée.

Garanties de cohérence : sur quoi vous pouvez compter

La cohérence, en termes simples : quand quelqu'un met à jour un enregistrement, tout le monde doit voir la même vérité.

Avec PostgreSQL, la cohérence forte est la plus simple quand votre application parle à un primaire. Lectures et écritures se font au même endroit, donc les transactions se comportent de façon prévisible. Vous pouvez ajouter des réplicas pour accélérer les lectures dans d'autres régions, mais il faut alors décider quand il est acceptable de lire des données légèrement périmées.

Avec CockroachDB et d'autres SQL distribués, la cohérence forte est aussi possible, mais elle devient plus coûteuse quand vous écartez les régions. Les écritures qui doivent être cohérentes entre régions demandent une coordination entre nœuds. Plus les régions sont éloignées, plus cette coordination prend du temps. Vous le ressentirez souvent comme des écritures et des transactions plus lentes, surtout quand une transaction touche des lignes situées dans différentes régions.

Les deux systèmes peuvent supporter des transactions sérialisables (la base s'efforce de faire en sorte que les changements concurrents se comportent comme s'ils avaient eu lieu un par un). La différence est où le travail se produit : PostgreSQL concentre le coût dans une région, alors qu'un système distribué peut le répartir entre régions.

Quelques questions rendent les compromis concrets :

Les utilisateurs peuvent-ils voir des lectures périmées, même pendant quelques secondes ?
Deux régions peuvent-elles accepter des écritures indépendamment, ou chaque écriture doit-elle être globalement approuvée ?
Que se passe-t-il si deux personnes éditent le même enregistrement en même temps ? Autorisez-vous les conflits ?
Quelles actions doivent toujours être correctes (paiements, permissions) vs « acceptables finalement » (analytics) ?
Avez-vous besoin d'une vérité globale, ou une « vérité locale » est-elle acceptable pour certaines données ?

Attentes de latence : ce que ressentiront les utilisateurs

Un modèle mental utile : la distance ajoute du temps, et la coordination ajoute encore du temps. La distance, c'est la physique. La coordination, c'est la base qui attend que d'autres nœuds soient d'accord avant de déclarer « terminé ».

Avec une installation PostgreSQL mono-région, la plupart des opérations se font à proximité. Lectures et écritures complètent généralement en un aller-retour entre votre application et la base. Si vous placez un réplica de lecture dans une autre région, les lectures peuvent être locales, mais les écritures continuent d'aller au primaire et les réplicas ont toujours un certain retard.

Dans un système distribué comme CockroachDB, les données sont réparties entre régions. Cela peut rendre certaines lectures rapides si les données nécessaires sont proches. Mais beaucoup d'écritures doivent être confirmées par une majorité de réplicas. Si vos données sont répliquées entre continents, même une écriture simple peut nécessiter des accusés de réception inter-régions.

Ne vous fiez pas à la latence moyenne. Regardez la latence p95 (les 5 % les plus lentes). Les utilisateurs remarquent ces pauses. Une page qui se charge habituellement en 120 ms mais atteint 800 ms quelques fois par jour donne une impression d'instabilité, même si la moyenne paraît correcte.

Ce que « rapide » signifie dépend de votre charge de travail. Les applications à forte écriture ressentent souvent plus le coût de coordination. Les applications en lecture seule peuvent bien fonctionner si les lectures sont locales. Les transactions lourdes, les workflows multi-étapes et les lignes « chaudes » (beaucoup d'utilisateurs mettent à jour le même enregistrement) amplifient la latence.

Quand vous évaluez PostgreSQL vs CockroachDB, cartographiez vos actions utilisateurs principales (inscription, paiement, recherche, mises à jour d'admin) vers l'endroit où résident les données et combien de régions doivent s'accorder sur chaque transaction. Cet exercice prédit mieux ce que ressentiront les utilisateurs que des benchmarks génériques.

Compromis opérationnels : ce que vous gérerez au quotidien

Éviter la crainte du verrouillage plateforme

Conservez l'option d'auto-hébergement en générant du code source réel que vous pouvez héberger vous-même plus tard.

Exporter le code

Les listes de fonctionnalités importent moins que ce qui vous réveille à 2 h du matin et ce que votre équipe doit faire chaque semaine.

Les opérations PostgreSQL sont familières et prévisibles. Le multi-région signifie souvent que vous exploitez aussi des éléments de support : réplicas, outils de basculement, ou clusters régionaux séparés avec routage applicatif. Le travail consiste souvent à prouver que le plan fonctionne (exercices de basculement, restaurations) plutôt qu'à l'optimisation quotidienne des requêtes.

CockroachDB intègre davantage l'histoire multi-région dans la base elle-même. Cela peut réduire le nombre de composants externes, mais implique aussi de comprendre un système distribué : santé des nœuds, réplication, rebalancement, et le comportement du cluster sous stress.

En pratique, les équipes finissent par effectuer les mêmes tâches de base dans les deux configurations :

Planifier les mises à niveau et valider les drivers, la surveillance et l'automatisation
Faire des sauvegardes et tester les restaurations (pas seulement vérifier l'existence des sauvegardes)
Pratiquer le basculement et documenter précisément les étapes du runbook
Enquêter sur les requêtes lentes et séparer « mauvaise requête » et latence cross-région
Surveiller la croissance du stockage et le comportement de compactage à long terme

Les modes de panne diffèrent. Avec PostgreSQL, une panne régionale déclenche souvent un basculement planifié. Vous pouvez accepter un mode lecture seule, une latence accrue ou une fonctionnalité réduite pendant un temps. Dans une base distribuée, le cas le plus dur est souvent la coupure réseau : le système peut protéger la cohérence en refusant certaines écritures tant que le quorum n'est pas disponible.

L'observabilité change aussi. Avec un primaire unique, vous vous demandez principalement : « Pourquoi cette requête est-elle lente ? » Avec un cluster distribué, vous vous demandez aussi : « Où ces données ont-elles atterri, et pourquoi la requête traverse-t-elle des régions ? »

Les coûts augmentent de façons évidentes et moins évidentes. Ajouter une seconde région peut accroître le nombre de nœuds, mais aussi la surveillance, la complexité des incidents et le temps passé à expliquer la latence et le comportement en cas de panne aux équipes produit.

Changements de schéma et migrations dans un environnement distribué

Passer de la théorie à la construction

Transformez votre checklist en plan d'application avec schéma, logique et cible de déploiement.

Démarrer le projet

Un changement de schéma est toute modification de la forme de vos données : ajouter une colonne pour un feature flag, renommer un champ, changer un type (int vers string), ajouter un index, ou introduire une nouvelle table.

Dans PostgreSQL, les migrations peuvent être rapides, mais le risque vient souvent du temps de verrou et du blocage des écritures. Certains changements réécrivent toute une table ou maintiennent des verrous plus longtemps que prévu, ce qui peut transformer un déploiement normal en incident en période de trafic élevé.

Dans une base distribuée, le risque se déplace. Même quand les changements en ligne sont supportés, la modification doit encore être acceptée par tous les nœuds et répliquée entre régions. Une modification « simple » peut prendre plus de temps à déployer et à valider. Vous pouvez finir le déploiement et passer du temps à surveiller le retard, les hotspots et les surprises de plans de requêtes dans chaque région.

Quelques habitudes rendent les migrations banales :

Préférez d'abord les changements additifs (nouvelle colonne, nouvelle table). Basculez les lectures et écritures ensuite. Supprimez les anciens champs plus tard.
Gardez chaque migration assez petite pour pouvoir revenir en arrière rapidement.
Évitez de changer les types en place quand c'est possible. Remplissez dans une nouvelle colonne.
Traitez les index comme un déploiement de fonctionnalité, pas comme un petit ajustement.
Entraînez-vous aux migrations avec des tailles de données réalistes, pas des bases de test vides.

Exemple : vous ajoutez preferred_language pour les utilisateurs EU. Ajoutez la colonne, écrivez simultanément dans l'ancien et le nouveau champ pendant une release, puis mettez à jour l'UI pour lire le nouveau champ, et enfin supprimez l'ancien. Dans les configurations multi-régions, les déploiements progressifs réduisent les surprises quand les régions rattrapent leur retard à des vitesses différentes.

Le vrai coût de se distribuer trop tôt

Choisir entre PostgreSQL et CockroachDB tôt n'est pas seulement une décision technique. Cela change la vitesse à laquelle vous livrez, la fréquence des surprises en production, et le temps que votre équipe passe à stabiliser le système au lieu de développer des fonctionnalités.

Si vous pouvez atteindre vos objectifs avec une région primaire, rester simple gagne souvent en début de projet. Vous avez moins de pièces mobiles, des pannes plus claires et un débogage plus rapide. Le recrutement est aussi plus facile parce que l'expérience PostgreSQL est répandue, et le développement local et l'intégration continue tendent à être plus simples.

Les équipes restent souvent centralisées d'abord parce que cela permet d'itérer plus vite, de revenir en arrière plus simplement, et d'avoir des performances plus prévisibles. L'on-call est aussi plus simple quand il y a moins de pièces mobiles.

Se distribuer tôt peut néanmoins être le bon choix quand les exigences sont réelles et non négociables : objectifs stricts de disponibilité inter-régions, contraintes de résidence des données, ou une base d'utilisateurs mondiale où la latence impacte directement le chiffre d'affaires.

La taxe de complexité apparaît en petits aspects qui s'accumulent : le travail de fonctionnalités prend plus de temps car il faut considérer le comportement multi-région, les tests doivent couvrir plus de modes de panne, et les incidents durent plus longtemps car les causes racines peuvent être le timing, la réplication ou le consensus plutôt que « la base est tombée ». Même les changements de schéma demandent plus de précautions.

Une règle pratique : validez d'abord la demande, puis distribuez quand la douleur est mesurable. Déclencheurs courants : objectifs SLO manqués dans une région, perte régulière d'utilisateurs à cause de la latence, ou exigences de conformité qui bloquent des contrats.

Si vous construisez avec un outil comme AppMaster, il peut être utile de démarrer avec un déploiement plus simple pendant que vous affinez les workflows et les modèles de données, puis de passer à un plan multi-région une fois que le produit et les trafics sont confirmés.

Une méthode pas-à-pas pour choisir entre eux

Rendre visibles les décisions de cohérence

Utilisez des processus métier visuels pour rendre explicites les règles de cohérence par fonctionnalité.

Cartographier la logique

« Multi-région » devient plus clair quand vous le transformez en quelques chiffres et en quelques parcours utilisateurs.

Étapes

Écrivez le RPO et le RTO en mots simples. Exemple : « Si une région meurt, nous pouvons perdre jusqu'à 1 minute de données (RPO), et nous devons être de retour en 15 minutes (RTO). » Si vous ne pouvez pas tolérer la perte d'écritures engagées, dites-le explicitement.
Cartographiez où sont les utilisateurs, et marquez les actions critiques en écriture. Listez vos régions et les actions principales : inscription, paiement, réinitialisation de mot de passe, publication d'un commentaire, consultation d'un fil. Toutes les écritures n'ont pas la même importance.
Définissez les besoins de cohérence par fonctionnalité. Les paiements, l'inventaire et les soldes nécessitent généralement une correction stricte. Les fils d'actualité, analytics et « dernière connexion » acceptent souvent de légers délais.
Fixez un budget de latence et testez depuis les régions ciblées. Décidez ce que « assez rapide » signifie (par exemple 200 à 400 ms pour les actions clés), puis mesurez le temps aller-retour depuis les régions qui vous importent.
Choisissez un modèle opérationnel que votre équipe peut soutenir. Soyez honnête sur le temps d'astreinte, les compétences base de données, et la tolérance à la complexité.

Exemple rapide

Si la majorité des utilisateurs est aux États-Unis et qu'une petite part seulement est en Europe, vous pourriez garder les écritures dans une région primaire, resserrer les objectifs de récupération, et ajouter des optimisations de lecture en Europe pour les écrans non critiques. Si des flux d'écriture intensifs en Europe exigent une meilleure UX, envisagez une couche service locale ou une file pour que l'interface reste réactive. Reconsidérez le choix de la base quand la cohérence multi-région devient nécessaire pour des tables centrales (comptes, facturation, permissions).

Scénario d'exemple : clients US et EU sur le même produit

Imaginez une application SaaS B2B où un compte a des collaborateurs à New York et Berlin. Tout le monde voit les mêmes tickets, factures et limites d'utilisation. La facturation est partagée, donc un événement de paiement doit immédiatement affecter l'accès pour tout le compte.

Avec PostgreSQL, une configuration courante est un primaire aux États-Unis et des réplicas de lecture en Europe. Les utilisateurs US ont des lectures et écritures rapides. Les utilisateurs EU peuvent lire localement, mais tout ce qui doit être correct immédiatement (plan courant, permissions, statut de facture) doit souvent atteindre le primaire US. Si les lectures EU proviennent d'une réplique, vous acceptez qu'elle puisse être en retard. Cela peut donner l'impression à un admin financier à Berlin qui paie une facture, actualise, et voit encore « en retard » pendant un temps.

Avec une base multi-région distribuée comme CockroachDB, vous pouvez placer les données plus près des deux régions tout en gardant une seule base logique. Le compromis est que beaucoup d'écritures, et certaines lectures, doivent se coordonner entre régions pour rester cohérentes. Cet aller-retour supplémentaire devient une partie du chemin normal, en particulier pour des enregistrements partagés comme les paramètres de compte et la facturation.

Un plan étagé qui fonctionne souvent :

Commencez avec une seule région et un primaire PostgreSQL, puis mesurez où se trouvent réellement les utilisateurs et les écritures.
Ajoutez des réplicas de lecture EU pour le reporting et les écrans non critiques.
Si les flux d'écriture EU ont besoin d'une meilleure UX, envisagez une couche service EU ou une file pour garder l'interface réactive.
Reconsidérez la base de données quand la correction multi-région devient requise pour des tables centrales (comptes, facturation, permissions).

Si vous construisez sur AppMaster, garder la logique dans des processus métier visuels peut rendre les futurs changements de régions de déploiement ou de stratégie de base de données moins douloureux.

Erreurs courantes que font les équipes

Livrer un modèle de données propre

Concevez des tables dans le Data Designer et générez des services Go sans écrire de code.

Créer le backend

La plus grosse erreur est de supposer que « multi-région » signifie automatiquement rapide pour tout le monde. Une base distribuée ne bat pas la physique. Si une transaction doit confirmer dans deux endroits éloignés, le temps aller-retour apparaît dans chaque écriture.

Un autre piège est de mélanger les attentes de cohérence sans l'admettre. Les équipes exigent une précision stricte pour les soldes, l'inventaire et les permissions, mais traitent d'autres parties de l'application comme « suffisamment proches ». Les utilisateurs voient alors une valeur sur un écran et une autre à l'étape suivante.

Schémas à surveiller :

S'attendre à ce que toutes les écritures paraissent locales alors qu'elles nécessitent une confirmation cross-région
Traiter la consistance éventuelle comme un détail d'interface et découvrir qu'elle casse des règles métier (remboursements, quotas, contrôle d'accès)
Apprendre la réalité opérationnelle seulement après le premier incident (sauvegardes, mises à niveau, santé des nœuds, pannes de région)
Sous-estimer le temps nécessaire pour déboguer les transactions lentes quand les logs et les données sont répartis
Traiter la première décision comme permanente au lieu de planifier une trajectoire d'évolution

Les migrations méritent une attention supplémentaire car elles surviennent souvent quand le produit croît le plus vite. Un changement de schéma facile sur un nœud peut devenir risqué quand il doit rester cohérent sur de nombreux nœuds et régions.

Considérez le premier choix de base comme une étape, pas une destinée. Si vous construisez avec AppMaster, vous pouvez prototyper rapidement les workflows et modèles de données, puis valider la latence réelle et le comportement en cas de panne avant de vous engager sur une architecture distribuée.

Checklist rapide avant de vous engager

Valider avant de se distribuer

Créez un backend prêt pour la production avec PostgreSQL et faites évoluer votre architecture quand les données le justifient.

Essayer AppMaster

Avant de choisir une direction, définissez ce que « bon » signifie pour votre produit. Les configurations multi-région peuvent résoudre de vrais problèmes, mais elles imposent aussi des choix permanents sur la latence, la cohérence et les opérations.

Gardez cette checklist courte et spécifique :

Identifiez vos 3 actions utilisateur principales (par exemple : connexion, paiement, mise à jour d'un enregistrement partagé) et où se trouvent ces utilisateurs.
Décidez ce qui doit être fortement cohérent entre régions et ce qui peut tolérer un délai.
Rédigez votre histoire de panne en termes simples : « Si la région X est down pendant 1 heure, les utilisateurs de la région Y peuvent encore faire A et B, mais pas C. »
Assignez la responsabilité des sauvegardes, des tests de restauration, des mises à niveau et de la surveillance.
Élaborez un plan de changement de schéma qui garde l'application compatible pendant des déploiements étagés.

Si vous construisez avec une plateforme no-code comme AppMaster, mettre cette checklist dans vos notes de build tôt aide à garder votre modèle de données, la logique métier et les étapes de déploiement alignés à mesure que les exigences évoluent.

Prochaines étapes : tester vos hypothèses et choisir une voie de construction

La plupart des équipes n'ont pas besoin d'une base distribuée dès le premier jour. Elles ont besoin d'un comportement prévisible, d'opérations simples et d'une voie claire pour croître.

Cette décision se résume souvent à une question : avez-vous besoin d'écritures actives et correctes dans plusieurs régions pour des workflows centraux ?

Si vous pouvez garder une région primaire et utiliser des réplicas, caches ou copies en lecture seule ailleurs, PostgreSQL convient souvent très bien.
Si vous avez vraiment besoin d'écritures multi-région avec forte cohérence, le SQL distribué peut convenir, à condition d'accepter une latence de base plus élevée et une complexité opérationnelle accrue.

Une façon pratique de tester votre choix est une preuve ciblée utilisant des workflows réels.

Petit plan de preuve (1–2 jours)

Mesurez la latence p95 depuis chaque région qui vous importe (lectures et écritures).
Simulez un mode de panne (tuez un nœud, bloquez une région ou désactivez le trafic inter-régions) et enregistrez ce qui casse.
Lancez 2–3 transactions critiques de bout en bout (inscription, paiement, mise à jour de profil) et observez tentatives, timeouts et erreurs visibles par l'utilisateur.
Essayez un changement de schéma courant (ajout de colonne, ajout d'index). Chronométrez-le et notez ce qu'il bloque.

Ensuite, écrivez la propriété des données. Quelle région « possède » un enregistrement client ? Quelles tables doivent être fortement cohérentes, et lesquelles peuvent être éventuellement cohérentes (comme les événements analytics) ? Décidez aussi ce qui déclencherait une migration ultérieure, comment vous backfillerez et comment vous feriez un rollback.

Un chemin fréquent est de démarrer sur PostgreSQL, garder le schéma propre (clés primaires claires, moins de hotspots d'écriture inter-tables) et concevoir pour que les données spécifiques par région soient plus faciles à séparer plus tard.

Si vous utilisez AppMaster, vous pouvez modéliser un schéma PostgreSQL dans le Data Designer et générer des applications prêtes pour la production à déployer sur le cloud de votre choix pendant que vous validez si des écritures multi-région sont réellement nécessaires. Si vous voulez explorer cette approche, AppMaster sur appmaster.io est un moyen simple de prototyper la pile complète (backend, web et mobile) sans vous engager trop tôt dans une architecture multi-région complexe.

FAQ

Commencez par écrire la panne exacte que vous voulez survivre (une coupure complète de région, la perte d'un nœud de base de données ou une coupure réseau inter-régions) et ce que les utilisateurs doivent encore pouvoir faire pendant cet événement. Ensuite, fixez des objectifs clairs sur la perte de données acceptable (RPO) et le temps de reprise attendu (RTO). Une fois ces éléments explicites, les compromis entre PostgreSQL et CockroachDB deviennent beaucoup plus simples à évaluer.

PostgreSQL est souvent un bon choix par défaut si vous pouvez conserver une région primaire pour les écritures et accepter un processus de basculement court lors d'une coupure de région. Il est plus simple à exploiter, plus facile de recruter des compétences, et offre généralement une latence d'écriture plus faible à proximité du primaire. Ajoutez des réplicas de lecture dans d'autres régions si vous souhaitez des lectures plus rapides tout en tolérant un certain retard de réplication.

CockroachDB est adapté quand vous avez vraiment besoin que le système reste correct et continue d'accepter des écritures même si une région est hors service, sans promotion manuelle d'un nœud. Le compromis est une latence d'écriture de base plus élevée et une plus grande complexité opérationnelle, car la base doit coordonner les réplicas pour maintenir une forte cohérence. C'est un bon choix lorsque la cohérence multi-région est une exigence stricte, pas seulement un plus.

Un schéma courant est d'avoir un primaire PostgreSQL pour lectures et écritures, plus des réplicas de lecture dans d'autres régions pour la performance locale en lecture. Orientez les écrans en lecture seule ou « acceptables s'ils sont légèrement périmés » vers les réplicas, et envoyez tout ce qui est critique pour la cohérence (statut de facturation, permissions) vers le primaire. Cela améliore l'expérience utilisateur sans assumer la complexité des écritures distribuées tout de suite.

Le retard de réplica peut amener des utilisateurs à voir des données anciennes pendant un court instant, ce qui casse des workflows si l'étape suivante suppose que l'écriture la plus récente est visible partout. Pour réduire le risque, gardez les lectures critiques sur le primaire, concevez l'interface pour tolérer de brefs délais sur les écrans non critiques, et ajoutez des tentatives ou des invites de rafraîchissement là où c'est approprié. L'important est de décider à l'avance quelles fonctionnalités peuvent être « éventuellement cohérentes » et lesquelles ne le peuvent pas.

Les écritures multi-régions augmentent généralement la latence parce que la base doit confirmer l'écriture avec d'autres réplicas situés dans différentes régions avant de considérer l'opération comme « terminée ». Plus vos régions sont éloignées, plus ce temps de coordination se répercute sur la latence p95/p99. Si votre application est intensive en écritures ou comporte des transactions multi-étapes touchant des lignes partagées, ces allers-retours supplémentaires se remarquent fortement pour les utilisateurs.

Concentrez-vous sur la latence p95 pour vos actions utilisateurs principales, pas seulement sur les moyennes ou des benchmarks synthétiques. Mesurez les temps de lecture et d'écriture réels depuis les régions où se trouvent vos utilisateurs, et testez quelques workflows critiques de bout en bout (inscription, paiement, changements de permissions). Simulez aussi au moins un mode de panne et notez ce que voient les utilisateurs, car « fonctionne en conditions normales » n'est pas la même chose que « fonctionne pendant une panne ».

Avec PostgreSQL, la partie inquiétante est souvent le temps de blocage et les écritures bloquées pendant certaines migrations, surtout sur de grosses tables. Dans les systèmes distribués, les changements peuvent rester en ligne mais prendre plus de temps à se propager et provoquer des hotspots ou des variations de plans de requête selon les régions. L'approche la plus sûre, dans les deux cas, est des migrations additives et progressives qui gardent l'application compatible pendant que les données et le trafic évoluent.

Une panne complète d'une région avec PostgreSQL déclenche souvent un basculement planifié où vous promouvez un réplica et basculez l'application vers le nouveau primaire, parfois avec une courte pause en écriture. Dans un système distribué, le scénario plus délicat est une partition réseau : la base peut refuser certaines écritures pour protéger la cohérence jusqu'à ce qu'elle retrouve la majorité quorum. Vos runbooks doivent couvrir les deux types d'événements, pas seulement « la base est tombée ».

Oui, si vous le traitez comme une évolution plutôt qu'une décision irréversible. Commencez avec un modèle d'écriture simple en une seule région, gardez votre schéma propre, et explicitez les besoins multi-région par fonctionnalité pour ne pas dépendre accidentellement de lectures périmées pour des workflows critiques. Si vous construisez avec AppMaster, vous pouvez itérer rapidement sur les modèles de données et la logique métier, valider la latence et le comportement en cas de panne en tests proches de la production, et n'adopter une architecture multi-région plus complexe que lorsque le besoin est avéré.