18 juin 2025·8 min de lecture

Kubernetes vs fonctions serverless pour les charges en pic

Kubernetes vs fonctions serverless : comparez coûts, cold starts, friction du dev local et compromis d'observabilité pour des produits API soumis à des pics de trafic.

Ce que signifient les charges en pic pour les produits axés API

Une charge en pic, c'est quand le trafic n'est pas stable. Vous avez de courtes rafales d'utilisation intense, puis de longues périodes calmes, puis une autre rafale. La pointe peut être 10x ou 100x votre charge normale, et elle peut arriver en quelques minutes.

Les causes courantes sont simples et très réelles :

Un email marketing ou une campagne publicitaire est envoyé
Une application partenaire recommence à relancer des requêtes après une panne
Un événement en direct (vente de billets, webinar, lancement produit)
Un job planifié qui répartit le travail d'un coup
Un petit bug qui déclenche des boucles ou du polling répété

Les produits axés API ressentent les pics plus fortement parce qu'ils transforment les actions utilisateur en nombreuses petites requêtes. Un simple chargement d'écran peut déclencher plusieurs appels API (vérifications d'auth, flags de fonctionnalité, recherche, recommandations, journaux d'audit). Quand le trafic monte, ces appels s'empilent rapidement. Si une dépendance ralentit, vous voyez des timeouts, des retries, puis encore plus de trafic provoqué par les clients qui réessaient.

Un exemple concret : un portail client fonctionne bien toute la journée, puis une campagne pousse des milliers d'utilisateurs à se connecter en cinq minutes. Chaque connexion touche les endpoints d'authentification, de profil et de permissions. Si le service d'auth met une pause ou se scale lentement, les utilisateurs perçoivent « le site est en panne », même si une seule partie souffre.

C'est pourquoi Kubernetes vs fonctions serverless n'est pas une question d'une plateforme « meilleure ». C'est une question d'arbitrages qui apparaissent sous pression de rafales.

Rappel rapide : Kubernetes et serverless en termes simples

Quand on compare Kubernetes vs fonctions serverless, on choisit entre deux manières d'exécuter la même idée : une API qui doit répondre vite, même quand le trafic varie.

Kubernetes (conteneurs généralement toujours actifs)

Kubernetes exécute votre application en conteneurs généralement toujours allumés. Ces conteneurs vivent dans des pods, et Kubernetes maintient le nombre désiré de pods sur un cluster de machines.

Vous déployez typiquement un service (votre API) plus des composants de soutien comme un proxy de base de données, un worker pour les jobs, ou un cache. Quand le trafic monte, Kubernetes peut ajouter des pods avec l'autoscaling. Quand le trafic descend, il peut retirer des pods, mais il atteint rarement zéro à moins que vous ne le conceviez ainsi.

Kubernetes tourne souvent comme service managé (par exemple un cluster Kubernetes managé sur AWS, Azure ou Google Cloud). Vous ne gérez pas les serveurs physiques, mais vous devez quand même faire et maintenir des choix de plateforme.

Fonctions serverless (le code s'exécute par requête)

Les fonctions serverless exécutent votre code seulement quand c'est nécessaire. Chaque requête déclenche une fonction, la plateforme démarre autant d'instances que nécessaire, puis réduit quand les requêtes cessent. C'est le modèle classique du « scale to zero ».

La plupart des équipes utilisent des plateformes de fonctions managées (comme AWS Lambda, Azure Functions, ou Google Cloud Functions). Vous fournissez le code et la configuration ; le fournisseur gère le runtime, la mise à l'échelle et beaucoup de détails d'infrastructure.

Même avec des services managés, vous restez propriétaire des responsabilités quotidiennes comme les déploiements, les secrets, le monitoring, les logs, le tracing, et le respect des limites (timeouts, mémoire, concurrence, quotas).

Comparaison des coûts : où va l'argent

Le coût n'est rarement que du « compute ». Pour des produits axés API, la facture se répartit souvent entre compute, réseau, stockage, services managés, et le temps passé à maintenir le tout.

Les postes de coûts qui comptent le plus sont :

Compute : nœuds et capacité réservée (Kubernetes) vs durée par invocation et mémoire (serverless)
Réseau : load balancers, NAT, réseau privé et transfert de données (egress)
Stockage : bases de données, caches, stockage d'objets, sauvegardes
Services managés : API gateways, queues, secrets, identité, planificateurs
Temps d'opérations : charge d'astreinte, upgrades, patchs de sécurité, règles d'autoscaling, récupération d'incidents

Un modèle mental utile est « payer l'idle » vs « payer à l'usage ». Avec Kubernetes vous payez souvent des nœuds 24/7, même si le trafic est calme la nuit. Avec le serverless vous payez généralement quand le code s'exécute, ce qui peut être excellent si le « scale to zero » correspond à votre usage.

Un exemple simple : imaginez une API qui reçoit 50 requêtes par seconde pendant 10 minutes après une opération marketing, puis reste proche de zéro le reste de la journée. Une installation Kubernetes pourrait devoir maintenir assez de capacité pour gérer ce pic (ou accepter un autoscaling plus lent), et vous pouvez finir par payer des serveurs qui attendent. Une solution serverless peut facturer plus par requête durant le pic, mais vous évitez de payer pour les heures calmes.

Les coûts cachés surprennent souvent les équipes. Les NAT gateways et les load balancers peuvent devenir une facture mensuelle fixe même quand les requêtes sont faibles. Les logs, métriques et traces peuvent croître silencieusement avec le volume de requêtes, les retries et du middleware bavard. L'egress de données augmente vite si vos fonctions appellent des API tierces, streament des fichiers, ou retournent de gros payloads.

Kubernetes peut être moins cher si vous avez une baseline stable et pouvez maintenir une bonne utilisation des nœuds avec des tailles appropriées, instances réservées et trafic prévisible. Le serverless peut être moins cher quand les requêtes sont courtes, les pics rares, et que le service peut vraiment retomber à zéro entre les rafales.

Astuce pratique : estimez les coûts en utilisant le comportement réel de l'API, pas seulement le RPS moyen. Incluez la taille des pics, la taille des payloads, les retries, et la quantité de données d'observabilité que vous comptez conserver.

Cold starts et latence : ce que ressentent vraiment les utilisateurs

Un cold start est simple : la première requête atteint une fonction « endormie », la plateforme doit la réveiller et préparer l'exécution avant que votre code tourne. Cet appel initial est plus lent, même si les 100 suivants sont rapides.

Pour des produits axés API, cela se voit là où ça fait mal : la latence p95 et p99. La plupart des utilisateurs ont une réponse rapide, mais certains subissent une attente de 2 à 10 secondes, un timeout, ou un spinner infini. Ces outliers lents déclenchent aussi des retries côté client et des gateways, ce qui peut créer une charge supplémentaire précisément quand le système est déjà sous pression.

Ce qui aggrave ou atténue les cold starts dépend de détails pratiques :

Runtime et taille des dépendances : les runtimes lourds et gros packages prennent plus de temps à charger
Configuration réseau : se connecter à des réseaux privés ajoute souvent du temps au démarrage
Allocation mémoire et CPU : plus de ressources peuvent réduire le démarrage, mais coûtent plus cher
Appels externes au démarrage : récupération de secrets, connexions DB, initialisation de SDK
Modèle de concurrence : certaines plateformes gèrent une requête par instance, forçant plus de cold starts lors des rafales

Un exemple réaliste : une appli mobile ouvre l'écran « Commandes récentes » à 9h. Si la fonction était inactive toute la nuit, le premier utilisateur obtient une réponse en 6 secondes, l'appli réessaie, et maintenant deux requêtes suivent le même chemin froid. L'utilisateur retient : « cette appli est lente », même si la latence moyenne est correcte.

Les moyens de réduire l'impact utilisateur sont souvent combinés : garder une petite capacité chaude, diviser une grosse fonction en plusieurs plus petites pour démarrer uniquement la partie nécessaire, et cacher les réponses pour réduire le nombre de requêtes qui atteignent le chemin froid. Certaines équipes programment des pings de chauffe, mais cela peut être fragile et ressemble parfois à payer pour un rustine.

Dans le débat Kubernetes vs fonctions serverless, Kubernetes gagne souvent sur la latence prévisible parce que les pods peuvent rester chauds derrière un service. Mais ce n'est pas infaillible : si vous comptez sur un autoscaling depuis zéro ou une baseline très basse, de nouveaux pods ont aussi besoin de temps pour tirer les images, démarrer et passer les checks. La différence est que la « froideur » Kubernetes est généralement plus sous votre contrôle, alors que les cold starts serverless sont parfois plus difficiles à éliminer complètement.

Développement local : ce qui a tendance à être pénible

Inclure des intégrations réelles

Ajoutez auth, paiements et messagerie pour reproduire vos dépendances de production pendant les tests de pics.

Explorer la plateforme

Pour un produit axé API, le travail local doit être ennuyeux : vous voulez lancer l'API, frapper de vrais endpoints, déboguer une requête de bout en bout, initialiser des données de test et exécuter des tests automatisés sans deviner l'environnement.

Avec Kubernetes, la douleur vient souvent de la configuration et de la dérive. Un cluster local (ou un cluster dev partagé) ajoute des pièces : manifests, discovery de services, règles d'ingress, secrets, et parfois des heures à comprendre pourquoi un pod ne peut pas atteindre Postgres. Même quand ça marche, la boucle peut être lente : build d'une image, push, déploy, attente, retry.

Avec le serverless, la douleur est souvent l'écart local/nuage. Les émulateurs aident, mais beaucoup d'équipes finissent par tester dans l'environnement réel parce que les payloads d'événements sont faciles à malformuler et certaines fonctionnalités n'existent qu'en cloud (règles IAM, triggers managés, logging fournisseur). Vous pouvez aussi vous retrouver à déboguer une requête distribuée sans moyen local stable pour la reproduire.

Un exemple simple : votre API crée une commande, débite une carte et envoie un reçu. Sur Kubernetes, vous luttez avec le réseau et la config pour lancer les dépendances de paiement et de messagerie localement. En serverless, vous luttez avec les formes d'événements et les permissions pour déclencher la chaîne de fonctions correcte.

Garder la boucle de feedback rapide

Visez un workflow local qui rend les deux approches prévisibles :

Une commande pour lancer l'API + dépendances et seed de données
Garder les configs cohérentes (mêmes noms de variables d'env, mêmes valeurs par défaut)
Mocker les intégrations externes par défaut (paiements, email/SMS) et activer les réelles seulement si nécessaire
Mettre la logique métier dans des modules clairs testables par unit tests sans la plomberie Kubernetes ou les handlers de fonctions
Conserver un petit ensemble de requêtes « golden » répétables pour le debug (créer utilisateur, créer commande, rembourser)

Si votre boucle locale est rapide, le débat Kubernetes vs fonctions serverless devient moins émotionnel, parce que vous ne paierez pas une taxe de productivité quotidienne.

Observabilité : debug et monitoring au quotidien

Une bonne observabilité signifie pouvoir répondre rapidement à trois questions : qu'est-ce qui est cassé, où c'est cassé, et pourquoi c'est cassé ? Pour y parvenir, il vous faut des logs (ce qui s'est passé), des métriques (à quelle fréquence et à quelle lenteur), et des traces (comment une requête a traversé les services). La colle est un ID de corrélation, généralement un request ID qui suit l'appel à chaque étape.

Kubernetes : une plomberie cohérente aide

Avec des services longue durée, Kubernetes facilite la mise en place d'un monitoring prévisible. Agents, sidecars et chemins réseau standards signifient que vous pouvez collecter logs, métriques et traces de façon cohérente à travers les services. Parce que les pods vivent plus longtemps qu'une seule requête, vous pouvez aussi attacher des debuggers, capturer des profils et comparer le comportement dans le temps sans que tout disparaisse entre les invocations.

Kubernetes vs fonctions serverless se résume souvent à la réalité quotidienne : dans Kubernetes l'environnement est plus stable, donc vos outils et vos hypothèses cassent moins souvent.

Serverless : du détail par invocation, une histoire end-to-end plus délicate

Les plateformes serverless facilitent en général l'accès aux logs par invocation et aux métriques de base. La difficulté apparaît quand une requête touche plusieurs fonctions, queues et APIs tierces. Le contexte se perd à moins de transmettre l'ID de corrélation partout. Le tracing peut être limité par les réglages par défaut de la plateforme, et l'échantillonnage peut tromper : vous voyez une trace lente et supposez que c'est rare, alors que l'échantillonnage l'a peut-être sur- ou sous-représentée.

Le volume de logs est une autre surprise commune. Un pic peut multiplier les invocations, et des logs bruyants se transforment rapidement en facture.

Une base pratique qui marche dans les deux mondes :

Utiliser des logs structurés (JSON) et inclure request_id, user_id (si sûr), et nom du service/fonction
Émettre quelques métriques clés : compte de requêtes, taux d'erreur, p95 latence, nombre de retries
Ajouter des traces pour le chemin API principal et les dépendances clés (BD, paiements, messagerie)
Maintenir quelques tableaux de bord : santé globale, santé des dépendances, endpoints les plus lents
Alerter sur des symptômes (taux d'erreur, latence) plutôt que sur des causes (CPU, mémoire)

Exemple : si le checkout appelle inventaire, paiement et email, un seul request ID devrait vous permettre de rassembler la trace complète et tous les logs en quelques minutes, pas quelques heures.

Comportement de mise à l'échelle : pics, limites et goulots d'étranglement

Gardez le contrôle avec le code source

Obtenez du code source réel que vous pouvez déployer sur votre cloud et optimiser pour la latence et le coût.

Générer le code

Pour le trafic en pic, la montée en charge porte moins sur la fonctionnalité annoncée que sur la rapidité de réaction, ce qu'elle refuse de faire et ce qui casse en premier. Dans Kubernetes vs fonctions serverless, les deux gèrent les rafales, mais échouent différemment.

Le serverless absorbe souvent les pics soudains rapidement, mais il peut frapper des limites de throttling sévères. Les fournisseurs plafonnent le nombre d'instances de fonctions simultanées, et vous pouvez aussi atteindre des quotas de compte ou de région. Quand vous franchissez cette ligne, les requêtes sont mises en file, ralenties ou rejetées. La montée en charge est souvent rapide, mais pas instantanée.

L'autoscaling Kubernetes est en général plus lisse une fois lancé, mais il a plus de pièces mobiles. Les pods doivent être planifiés, les images tirées, et les checks de readiness passés. Si votre cluster n'a pas de capacité libre, vous attendez aussi l'ajout de nouveaux nœuds. Cela peut transformer un pic de 10 secondes en quelques minutes de douleur.

Une façon utile de comparer les limites probables :

Serverless : plafonds de concurrence, limites de requêtes par seconde, limites de connexions downstream
Kubernetes : temps de démarrage des pods, capacité des nœuds, temps de réaction de l'autoscaler
Les deux : connexions DB, limites d'API tierces, profondeur des queues

La gestion de l'état est la contrainte discrète. Supposez que vos handlers API doivent être sans état, puis poussez l'état vers des bases, caches et stockage d'objets. Pour les pics, les queues servent souvent de soupape : accepter rapidement les requêtes, les mettre en file, et traiter à un rythme soutenable.

Exemple : une promo génère 50x de connexions et de webhooks. Votre compute peut scaler, mais le goulot est souvent la base de données (trop de connexions) ou un fournisseur de paiements qui vous limite. Surveillez d'abord les limites downstream ; la montée en compute ne les résoudra pas.

Comment choisir : un processus de décision pas à pas

Démarrez une API rapidement

Créez des API avec modélisation de base de données et logique métier visuelle qui reproduisent vos véritables chemins de requêtes.

Créer un backend

Si vous hésitez entre Kubernetes vs fonctions serverless, prenez la décision comme un choix produit, pas un débat d'outillage. Commencez par ce que vos utilisateurs ressentent et ce que votre équipe peut supporter à 2h du matin.

D'abord, recueillez des faits mesurables :

Mesurez votre pattern de trafic : RPS de base, RPS en pointe, et durée des pics. Un pic de 30 secondes n'est pas la même chose qu'une surcharge de 2 heures.
Écrivez des SLOs pour latence et erreurs, avec des cibles p95 et p99. Pour les produits API, un problème de latence de queue peut devenir une panne visible par l'utilisateur.
Listez les dépendances touchées par chaque requête : base de données, cache, auth, paiements, messagerie, APIs tierces, appels IA. Cela montre où les cold starts ou limites de connexions feront mal.

Ensuite, modélisez l'argent et le coût opérationnel, puis testez :

Faites un simple tableau avec les vrais facteurs de coût. Pour le serverless : requêtes, durée, mémoire, plus coûts réseau ou gateway. Pour Kubernetes : nœuds toujours allumés, marge d'autoscaling, load balancers et capacité DB que vous payez même au repos.
Lancez un pilote qui correspond à un endpoint réel ou un job. Comparez latence p95/p99, taux d'erreur, coût mensuel et bruit d'astreinte (alerts, retries, timeouts).
Décidez si un hybride est le meilleur : Kubernetes pour les API cœur au trafic stable, serverless pour les pics, cron, webhooks ou backfills.

Exemple : un portail client a des API de login et compte stables, mais des webhooks de facturation qui picquent après l'envoi de factures. Garder les APIs cœur sur Kubernetes protège la latence de queue, tandis que gérer les webhooks en serverless évite de payer une capacité idle.

Erreurs courantes qui causent factures surprises et pannes

Le plus grand piège est d'assumer que « managé » signifie automatiquement « moins cher ». En serverless, la facture bascule souvent vers des postes qu'on ne surveille pas : logs bavards, métriques à haute cardinalité, et egress entre fonctions, bases et APIs tierces. Un petit pic peut devenir une grosse facture si chaque requête écrit plusieurs lignes de log volumineuses.

Les cold starts sont aussi une surprise classique en production. Les équipes testent sur des environnements chauds, puis déploient et voient soudainement des requêtes aléatoires à 2–10 secondes, des retries et des timeouts quand le trafic est calme puis pic. Quand on s'en rend compte, les clients ont parfois déjà mis en place des contournements comme des retries agressifs qui aggravent le pic.

Les défaillances Kubernetes sont souvent auto-infligées par un surdéveloppement précoce. Une petite équipe peut se retrouver à maintenir un cluster, un ingress, des règles d'autoscaling, la gestion des secrets, CI/CD et des upgrades avant que le produit ait un trafic stable. Plus de pièces mobiles signifie plus de façons de tomber en panne à 2h du mat.

Erreurs récurrentes :

Traiter fonctions ou pods comme étatful (écrire sur le disque local, compter sur caches en mémoire, sessions collantes)
Livrer sans IDs de requête end-to-end, rendant une API lente difficile à tracer
Collecter trop de télémétrie jusqu'à rendre le monitoring bruyant et coûteux
Ne pas définir de limites claires (caps de concurrence, backpressure sur les queues), transformant un pic en une foule sur la DB

Un exemple rapide : un produit API reçoit un pic quotidien à 9h depuis une appli mobile. Si chaque requête déclenche trois fonctions qui loggent le payload complet, les coûts montent vite, et les cold starts ajoutent de la latence justement quand les utilisateurs sont actifs.

Checklist avant de vous engager

Modélisez de vrais parcours utilisateurs

Créez l'interface web qui déclenche vos véritables schémas d'appels API, pas une démo simplifiée.

Créer une web app

Quand les équipes débattent Kubernetes vs fonctions serverless, la décision paraît souvent évidente jusqu'au premier pic, la première panne ou la première facture. Testez les deux options avec votre charge réelle, pas une démo heureuse.

Notez des réponses vérifiables avec des chiffres :

Coût : identifiez vos 3 principaux postes de coût et comment chacun évolue pendant un pic. Estimez un mois pire scénario, pas une semaine moyenne.
Performance : testez avec un trafic en forme de pic et vérifiez p95 et p99. Incluez chemins chauds et froids, et dépendances comme DB et APIs tierces.
Fiabilité : confirmez timeouts, retries et limites de bout en bout. Assurez-vous que les retries n'amplifient pas la charge ou ne causent pas d'actions en double (ex. double débit).
Vitesse de dev : un nouveau dev peut-il lancer le système localement en moins de 30 minutes avec des configs et données réalistes ? Sinon, attendez-vous à des réparations plus lentes en incident.
Observabilité : prenez une requête utilisateur et vérifiez que vous pouvez la tracer à travers chaque étape (gateway API, fonction/pod, queue, DB). Confirmez que les logs sont consultables et que les métriques disent « qu'est-ce qui a changé ? »

Soyez clair sur l'ownership des opérations. Qui gère les upgrades, patchs de sécurité, rotation de certificats et la réponse aux incidents à 2h du matin ? Un moyen rapide de repérer un risque est de lister les tâches « quelqu'un doit le faire » et d'assigner un nom à chacune avant de s'engager.

Scénario d'exemple et étapes pratiques suivantes

Imaginez un produit SaaS avec une API d'administration utilisée par des équipes finance. La plupart du temps c'est calme, mais le jour de paie et en fin de mois l'usage monte de 20x en 30 minutes. Le trafic est API-heavy : beaucoup de lectures pour les rapports, plus des rafales d'écritures qui déclenchent des jobs asynchrones.

Sur Kubernetes, ce pic déclenche habituellement l'autoscaling. Si le Horizontal Pod Autoscaler est bien réglé, de nouveaux pods arrivent et l'API reste réactive. La surprise vient souvent de l'entourage : la DB peut se saturer d'abord (connexions, CPU, I/O), et alors l'API paraît lente même après ajout de pods. Si le cluster manque de capacité libre, le scale-up peut être retardé le temps d'ajouter des nœuds.

Sur serverless, la plateforme tentera d'absorber la rafale en créant rapidement beaucoup d'instances de fonctions. C'est excellent pour une demande courte et irrégulière, mais vous pouvez rencontrer deux problèmes : pointes de concurrence et cold starts. Quand des centaines d'instances démarrent simultanément, les premières requêtes peuvent être lentes, et vous pouvez accidentellement inonder la DB de connexions parallèles sauf si vous concevez des limites.

Pour beaucoup d'équipes, la solution réaliste est hybride :

Garder les services longue durée sur Kubernetes (auth, API admin interne)
Utiliser le serverless pour des endpoints épisodiques et isolés (webhooks, export de rapports, traitement de fichiers)
Protéger la DB avec pooling, caching et limites strictes de débit dans les deux mondes

Étapes pratiques qui tranchent souvent plus vite qu'un tableau :

Choisir un endpoint représentatif (ex. « générer le rapport mensuel »).
L'implémenter des deux manières avec la même base et la même taille de payload.
Test de charge sur une heure calme et une heure de pic ; enregistrez p95, taux d'erreur et coût total.
Ajouter des garde-fous : max de concurrence (serverless) et max replicas (Kubernetes), plus une limite de connexions DB.
Décider sur la base de vos propres chiffres, pas de benchs génériques.

Si vous voulez avancer plus vite sur l'application pendant ces expériences infra, AppMaster (appmaster.io) peut générer un backend prêt pour la production, une web app et des apps mobiles natives à partir de blocs visuels, afin que votre pilote se concentre sur le comportement réel de la charge plutôt que sur l'assemblage et le code de scaffold.

FAQ

Un pic de charge, c’est du trafic qui arrive en courtes rafales intenses entrecoupées de longues périodes calmes. Les produits axés API en souffrent davantage parce qu’une action utilisateur déclenche souvent plusieurs appels API, qui s’empilent rapidement et provoquent des retries si quelque chose ralentit.

Le serverless est souvent un bon choix quand votre trafic retombe vraiment près de zéro entre les pics et que les requêtes sont courtes. Kubernetes est préférable quand vous avez un trafic de base constant, des objectifs de latence stricts, ou besoin de plus de contrôle sur l'exécution et le réseau.

Pas du tout. Beaucoup d'équipes utilisent un mix : garder les API cœur sur Kubernetes pour une latence prévisible, et utiliser le serverless pour des tâches isolées et très variables comme les webhooks, les jobs planifiés ou les traitements ponctuels.

Avec Kubernetes vous payez souvent la capacité toujours allumée (nœuds 24/7). En serverless vous payez à l'invocation, ce qui peut être moins cher si l'inactivité est réelle, mais les coûts peuvent grimper pendant les pics et à cause d'éléments annexes comme les API gateways, NAT, logs et la sortie de données.

Les cold starts se produisent quand une fonction est au repos et qu'une nouvelle instance doit démarrer pour traiter la requête. Les utilisateurs ressentent alors des latences élevées (p95/p99), des timeouts ou des retries, surtout après des périodes d'inactivité ou des montées soudaines d'instances.

Allégez le chemin de requête : réduisez la taille des paquets, évitez les travaux lourds au démarrage et mettez en cache ce qui aide. Si nécessaire, gardez une petite capacité chaude et concevez le système pour que le cold start n'entraîne pas une avalanche de connexions downstream (ex. nombreuses connexions DB).

Kubernetes peut être lent si le cluster n'a pas de capacité libre (pull d'images, checks de readiness, ajout de nœuds). Le serverless peut monter plus vite, mais vous pouvez atteindre des limites de concurrence et des quotas qui provoquent throttling, mises en file ou rejets.

Les dépendances cassent souvent en premier : bases de données (connexions, I/O), APIs tierces qui limitent le débit, et retries qui amplifient la charge. Le calcul évolue, mais il ne résout pas des limites downstream.

Le dev local sur Kubernetes souffre surtout de la configuration et de la dérive : manifests, réseau, ingress, et boucles build/deploy lentes. Pour le serverless, le problème est l'écart local/nuage : payloads d'événements, permissions IAM et comportements disponibles uniquement chez le provider, ce qui pousse souvent à déboguer dans le cloud.

Commencez par des faits : baseline, pointes et durée des pics, puis définissez les cibles p95/p99. Pilotez un endpoint réel des deux manières, testez en charge avec des formes de pic et comparez latence, erreurs, bruit opérationnel et coût total.