18 jun 2025·8 min de lectura

Kubernetes vs funciones serverless para cargas de trabajo con picos

Kubernetes vs funciones serverless: compara costes, cold starts, fricción en desarrollo local y trade-offs de observabilidad para productos centrados en APIs con tráfico en picos.

Qué significan las cargas con picos para productos centrados en APIs

Una carga con picos es cuando el tráfico no es constante. Recibes ráfagas cortas de uso intensivo, luego largos periodos tranquilos y después otra ráfaga. El pico puede ser 10x o 100x tu carga normal, y puede llegar en minutos.

Las causas comunes son simples y muy reales:

Un correo de marketing o una campaña publicitaria sale al público
Una app socia empieza a reintentar peticiones tras una caída
Un evento en vivo (venta de entradas, webinar, lanzamiento de producto)
Un job programado que distribuye trabajo todo a la vez
Un pequeño bug que provoca bucles o polling repetido

Los productos con muchas APIs sienten los picos más porque convierten las acciones de usuario en muchas peticiones pequeñas. Una carga de pantalla puede disparar varias llamadas API (comprobaciones de auth, feature flags, búsqueda, recomendaciones, logs de auditoría). Cuando el tráfico sube, esas llamadas se apilan rápidamente. Si aunque sea una dependencia se enlentece, ves timeouts, reintentos y aún más tráfico por las reintentos de los clientes.

Un ejemplo concreto: un portal de clientes funciona bien todo el día, y luego una campaña empuja a miles de usuarios a iniciar sesión en cinco minutos. Cada login toca endpoints de autenticación, perfil y permisos. Si el servicio de auth se pausa o escala despacio, los usuarios lo perciben como “el sitio está caído”, aunque solo una parte esté teniendo problemas.

Por eso la comparación entre Kubernetes y funciones serverless no es sobre una plataforma “mejor”. Es sobre compensaciones que aparecen bajo presión de ráfagas.

Breve repaso: Kubernetes y serverless en términos simples

Cuando la gente compara Kubernetes vs funciones serverless, elige entre dos formas de ejecutar la misma idea: una API que debe responder rápido, incluso cuando el tráfico fluctúa.

Kubernetes (contenedores que permanecen en ejecución)

Kubernetes ejecuta tu app como contenedores que normalmente están encendidos. Esos contenedores viven en pods, y Kubernetes mantiene el número deseado de pods ejecutándose en un clúster de máquinas.

Normalmente despliegas un servicio (tu API) más partes de soporte como un proxy de base de datos, un worker de jobs o un caché. Cuando el tráfico sube, Kubernetes puede añadir pods con autoscaling. Cuando baja, puede eliminar pods, pero rara vez llega a cero a menos que lo diseñes así.

Kubernetes suele correrse como servicio gestionado (por ejemplo, un clúster gestionado en AWS, Azure o Google Cloud). No gestionas servidores físicos, pero sí debes tomar y mantener decisiones de plataforma.

Funciones serverless (código que corre por petición)

Las funciones serverless ejecutan tu código solo cuando hace falta. Cada petición desencadena una función, la plataforma arranca tantas copias como se necesiten y luego escala hacia abajo cuando paran las peticiones. Este es el modelo clásico de “escalar a cero”.

La mayoría usa plataformas gestionadas (como AWS Lambda, Azure Functions o Google Cloud Functions). Tú llevas el código y la configuración; el proveedor maneja el runtime, el escalado y muchos detalles de infra.

Aun con servicios gestionados, sigues teniendo responsabilidades diarias: despliegues, secretos, monitorización, logging, tracing y respetar límites (timeouts, memoria, concurrencia y cuotas).

Comparación de costes: a dónde va el dinero

El coste rara vez es solo “compute”. Para productos con muchas APIs, la factura suele repartirse entre compute, red, almacenamiento, add-ons gestionados y el tiempo que dedicas a mantener todo.

Los bloques de coste que importan son:

Compute: nodos y capacidad reservada (Kubernetes) vs tiempo por invocación y memoria (serverless)
Red: balanceadores, NAT, redes privadas y transferencia de datos (egress)
Almacenamiento: bases de datos, cachés, object storage, backups
Servicios gestionados: API gateways, colas, secretos, identidad, schedulers
Tiempo de operaciones: carga de on-call, upgrades, parches de seguridad, reglas de escalado, recuperación de incidentes

Un modelo mental útil es “pagar por inactividad” vs “pagar por uso”. Con Kubernetes a menudo pagas por nodos 24/7, incluso si el tráfico está bajo por la noche. Con serverless pagas cuando el código corre, lo que puede ser excelente cuando “escalar a cero” coincide con tu patrón de uso.

Un ejemplo simple: imagina una API que recibe 50 peticiones por segundo durante 10 minutos tras una campaña, y luego queda casi a cero el resto del día. Un setup en Kubernetes quizá necesite capacidad de nodo suficiente para aguantar ese pico (o aceptas escalado más lento), por lo que podrías acabar pagando por servidores que la mayor parte del tiempo están ociosos. En serverless, puede que pagues más por petición durante el pico, pero evitas pagar por las horas tranquilas.

Los costes ocultos son los que sorprenden a los equipos. Gateways NAT y balanceadores pueden convertirse en una cuota mensual fija incluso con pocas peticiones. Logs, métricas y tracing crecen con el volumen de peticiones, reintentos y middleware ruidoso. El egress de datos sube rápido si tus funciones llaman APIs externas, transmiten archivos o devuelven payloads grandes.

Kubernetes puede ser más barato si tienes una base estable y mantienes alta la utilización con nodos bien dimensionados, instancias reservadas y tráfico predecible. Serverless puede ser más barato si las peticiones son cortas, los picos son raros y el servicio puede caer verdaderamente a cero entre ráfagas.

Un consejo práctico: estima costes usando el comportamiento real de la API, no solo el RPS medio. Incluye tamaño de payload, reintentos y cuánto dato de observabilidad piensas retener.

Cold starts y latencia: lo que realmente perciben los usuarios

Un cold start es sencillo: la primera petición llega a una función “dormida”, así que la plataforma debe despertarla y prepararla antes de que tu código corra. Esa primera llamada es más lenta, aunque las siguientes 100 sean rápidas.

En productos centrados en APIs, esto afecta donde más duele: la latencia en p95 y p99. La mayoría de usuarios ve respuestas rápidas, pero algunos reciben esperas de 2 a 10 segundos, timeouts o un spinner eterno. Esos outliers lentos también provocan reintentos desde clientes y gateways, lo que puede crear carga adicional justo cuando el sistema ya está en tensión.

Qué empeora o mejora los cold starts depende de detalles prácticos:

Runtime y tamaño del paquete: runtimes pesados y dependencias grandes tardan más en cargar
Configuración de red: adjuntar a redes privadas suele añadir tiempo de arranque
Asignación de memoria y CPU: más recursos pueden reducir tiempos de inicio, pero cuestan más
Llamadas externas en el arranque: fetch de secretos, conexiones a BD, inicialización de SDKs
Modelo de concurrencia: algunas plataformas ejecutan una petición por instancia, forzando más cold starts durante picos

Un ejemplo realista: una app móvil abre la pantalla “Pedidos recientes” a las 9:00. Si la función estuvo inactiva toda la noche, el primer usuario recibe 6 segundos de respuesta, la app reintenta y ahora dos peticiones golpean el mismo path frío. El usuario aprende: “esta app es lenta”, aunque la latencia media sea aceptable.

Maneras de reducir el impacto que se usan juntas incluyen mantener algo de capacidad cálida, dividir una función grande en partes más pequeñas para arrancar solo lo necesario, y cachear respuestas para que menos peticiones lleguen al path frío. Algunos equipos programan pings de calentamiento, pero eso puede ser frágil y sentirse como pagar por un arreglo.

En la comparación Kubernetes vs funciones serverless, Kubernetes suele ganar en latencia predecible porque los pods pueden mantenerse calientes detrás de un servicio. Pero no es inmune: si dependes de autoscaling desde cero o con una base muy baja, los nuevos pods también necesitan tiempo para tirar imágenes, arrancar y pasar checks. La diferencia es que la “frialdad” en Kubernetes suele estar más bajo tu control, mientras que en serverless es más difícil de eliminar por completo.

Desarrollo local: qué suele ser doloroso

Evita el boilerplate, prueba antes

Genera un backend listo para producción y centra tu tiempo en escalado y límites, no en el código repetitivo.

Probar AppMaster

Para un producto centrado en APIs, el trabajo local necesita sentirse aburrido. Quieres ejecutar la API, golpear endpoints reales, depurar una petición de extremo a extremo, sembrar datos de prueba y ejecutar tests sin adivinar en qué entorno estás.

Con Kubernetes, el dolor suele ser la configuración y la deriva. Un clúster local (o uno compartido) añade piezas móviles: manifests, descubrimiento de servicio, reglas de ingress, secretos y a veces horas comprobando por qué un pod no llega a Postgres. Incluso cuando funciona, el ciclo puede ser lento: construir una imagen, subir, desplegar, esperar, reintentar.

Con serverless, el dolor suele ser la brecha entre local y nube. Los emuladores ayudan, pero muchos equipos terminan probando en el entorno real porque los payloads de eventos son fáciles de fallar por un detalle y algunas funcionalidades solo existen en la nube (reglas IAM, triggers gestionados, colas, logging del proveedor). También puedes acabar depurando una petición distribuida sin una forma estable de reproducirla localmente.

Un ejemplo simple: tu API crea un pedido, cobra una tarjeta y envía un recibo. En Kubernetes puedes pelear con la red y la configuración para ejecutar pagos y mensajería localmente. En serverless puedes pelear con las formas de evento y permisos para encadenar correctamente las funciones.

Mantén el ciclo de feedback rápido

Apunta a un flujo local que haga que ambos enfoques sean predecibles:

Haz que sea un solo comando ejecutar la API más dependencias y sembrar datos
Mantén configuraciones consistentes (mismos nombres de env vars, mismos valores por defecto)
Simula integraciones externas por defecto (pagos, email/SMS) y activa las reales solo cuando haga falta
Pon la lógica de negocio en módulos planos que puedas testear con unit tests sin el enrejado de Kubernetes o manejadores de funciones
Conserva un pequeño conjunto de peticiones “golden” reproducibles para depurar (crear usuario, crear pedido, reembolso)

Si tu ciclo local es rápido, el debate Kubernetes vs serverless se vuelve menos emocional porque no pagarás un impuesto de productividad diario.

Observabilidad: depuración y monitorización día a día

Buena observabilidad significa poder responder tres preguntas rápido: qué está roto, dónde está roto y por qué se rompió. Para eso necesitas logs (qué pasó), métricas (con qué frecuencia y qué tan lento) y trazas (cómo una petición recorrió servicios). La unión es un ID de correlación, normalmente un request id que siga la llamada en cada salto.

Kubernetes: la canalización consistente ayuda

Con servicios de larga vida, Kubernetes facilita construir monitorización predecible. Agentes, sidecars y caminos de red estándar permiten recopilar logs, métricas y trazas de forma consistente. Como los pods viven más que una petición, también puedes adjuntar depuradores, capturar perfiles y comparar comportamiento en el tiempo sin que todo desaparezca entre invocaciones.

Kubernetes vs funciones serverless suele reducirse a la realidad diaria: en Kubernetes el entorno es más estable, así que tus herramientas y suposiciones fallan menos.

Serverless: excelente detalle por invocación, historia end-to-end complicada

Las plataformas serverless suelen facilitar ver logs por invocación y métricas básicas. La brecha aparece cuando una petición atraviesa múltiples funciones, colas y APIs de terceros. El contexto se pierde si no pasas el ID de correlación por todas partes. El tracing puede estar limitado por las opciones por defecto de la plataforma, y el muestreo puede confundir: ves una traza lenta y asumes que es rara, pero quizá fue muestreada de forma distinta.

El volumen de logs es otra sorpresa común. Un pico puede multiplicar invocaciones y logs ruidosos pueden convertirse en una factura.

Una base práctica que funciona en ambos mundos:

Usa logs estructurados (JSON) y añade request_id, user_id (si es seguro) y nombre del servicio/función
Emite unas pocas métricas clave: contador de peticiones, tasa de errores, p95 de latencia, contador de reintentos
Añade trazas para el camino principal de la API y dependencias clave (base de datos, pagos, mensajería)
Mantén algunos dashboards: estado general, salud de dependencias, endpoints más lentos
Alerta sobre síntomas (tasa de errores, latencia) antes que causas (CPU, memoria)

Ejemplo: si checkout llama a inventario, pago y correo, un único request ID debería permitirte sacar la traza completa y todos los logs en minutos, no horas.

Comportamiento de escalado: picos, límites y cuellos de botella

Pilota tu carga con picos

Construye un endpoint real rápido para probar Kubernetes frente a serverless con tus propios picos de tráfico.

Ejecutar piloto

Para tráfico con picos, escalar es menos sobre la característica anunciada y más sobre qué tan rápido reacciona, qué se niega a hacer y qué se rompe primero. En Kubernetes vs funciones serverless, ambos pueden manejar ráfagas, pero fallan de formas distintas.

Serverless suele absorber ráfagas súbitas rápidamente, pero puede golpear límites de throttling. Los proveedores limitan cuántas instancias de función pueden correr a la vez y puedes alcanzar cuotas por cuenta o por región. Cuando sobrepasas ese límite, las peticiones se encolan, se enlentecen o se rechazan. El ramp-up es rápido, pero no instantáneo.

El escalado en Kubernetes suele ser más suave una vez que arranca, pero tiene más piezas móviles. Los pods necesitan programarse, descargar imágenes y pasar checks. Si tu clúster no tiene capacidad sobrante, también esperas a que se añadan nodos. Eso puede convertir un pico de 10 segundos en unos minutos de dolor.

Una forma útil de comparar los límites que probablemente encontrarás:

Serverless: límites de concurrencia de funciones, límites por segundo, límites de conexiones downstream
Kubernetes: tiempo de arranque de pods, capacidad de nodos, tiempo de reacción del autoscaler
Ambos: conexiones a base de datos, límites de APIs de terceros, profundidad de colas

La gestión del estado es la limitación silenciosa. Asume que los manejadores de API deben ser stateless y empuja el estado a bases de datos, cachés y object storage. Para picos, las colas suelen ser la válvula de alivio: acepta rápidamente las peticiones, encolalas y procesa a ritmo constante.

Ejemplo: una promo provoca 50x en logins y webhooks. Tu compute puede escalar, pero el cuello de botella suele ser la base de datos (demasiadas conexiones) o un proveedor de pagos que te limita. Vigila primero los límites downstream, porque escalar compute no los arregla.

Cómo elegir: un proceso de decisión paso a paso

Modela flujos reales de usuario

Crea la interfaz web que desencadene tus patrones reales de llamadas a la API, no una demo simplificada.

Construir web

Si estás dudando entre Kubernetes vs funciones serverless, toma la decisión como un asunto de producto, no un debate de herramientas. Empieza por lo que sienten tus usuarios y lo que tu equipo puede soportar a las 2 a.m.

Primero, recoge hechos medibles:

Mide tu patrón de tráfico: RPS base, RPS pico y cuánto duran los picos. Un pico de 30 segundos es muy distinto a una subida de 2 horas.
Escribe SLOs para latencia y errores, con objetivos p95 y p99. En productos centrados en API, un problema de latencia en la cola puede convertirse en una caída visible para usuarios.
Lista las dependencias que toca cada petición: base de datos, caché, auth, pagos, mensajería, APIs de terceros, llamadas a AI. Esto muestra dónde los cold starts o límites de conexión harán daño.

Luego, modela coste y carga operativa y pruébalo:

Haz una hoja simple con los drivers reales de coste. Para serverless: peticiones, duración, memoria, más costes de red o gateway. Para Kubernetes: nodos siempre encendidos, margen de autoscaling, balanceadores y capacidad de BD que pagas incluso en horas quietas.
Ejecuta un piloto que represente un endpoint real o un job. Compara p95/p99, tasa de errores, coste mensual y ruido de on-call (alerts, reintentos, timeouts).
Decide si lo mejor es un híbrido: Kubernetes para APIs núcleo con tráfico estable, y serverless para picos, cron jobs, webhooks o backfills puntuales.

Ejemplo: un portal de clientes tiene login y APIs de cuenta con tráfico estable, pero los webhooks de facturación se disparan tras el envío de facturas. Mantener las APIs núcleo en Kubernetes protege la latencia de cola, mientras que manejar webhooks con serverless evita pagar por capacidad ociosa.

Errores comunes que causan facturas y caídas sorpresa

La mayor trampa es asumir que “gestionado” significa “más barato”. En serverless la factura a menudo se desplaza a lugares que nadie vigila: logs muy verbosos, métricas de alta cardinalidad y egress entre funciones, bases de datos y APIs externas. Un pequeño pico puede convertirse en una gran factura si cada petición escribe varias líneas grandes de log.

Los cold starts son otra sorpresa típica en producción. Los equipos prueban en entornos calientes y luego lanzan, y de repente ven peticiones aleatorias de 2 a 10 segundos, reintentos y timeouts cuando el tráfico está tranquilo y luego se dispara. Para cuando lo notas, los clientes quizá ya implementaron reintentos agresivos que empeoran el pico.

Los fallos en Kubernetes suelen ser autoinfligidos por sobrearquitectura temprana. Un equipo pequeño puede acabar manteniendo un clúster, ingress, reglas de autoscaling, gestión de secretos, CI/CD y upgrades antes de que el producto tenga tráfico estable. Más piezas móviles significan más formas de caer a las 2 a.m.

Errores repetidos:

Tratar funciones o pods como stateful (escribir en disco local, confiar en caches en memoria, sesiones sticky)
Publicar sin IDs de petición end-to-end, de modo que una llamada lenta sea difícil de rastrear
Recolectar demasiada telemetría hasta que el monitoring sea ruidoso y caro
No definir límites claros (concurrencia, backpressure en colas), de modo que un pico se convierta en una estampida hacia la base de datos

Un ejemplo rápido: un producto con APIs recibe un pico diario a las 9 a.m. Si cada petición dispara tres funciones que cada una registran el payload entero, los costes suben rápido y los cold starts añaden latencia justo cuando los usuarios están activos.

Checklist antes de comprometerte

Mantén el control con código fuente

Obtén código fuente real que puedas desplegar en tu nube y ajustar para latencia y coste.

Generar código

Cuando los equipos debaten Kubernetes vs funciones serverless, la decisión suele parecer obvia hasta el primer pico, la primera caída o la primera factura. Pon ambos a prueba con tu carga real, no con una demo feliz.

Escribe respuestas que puedas verificar con números:

Coste: Identifica tus 3 principales drivers de coste y cómo escalan durante un pico. Estima un mes worst-case, no una semana promedio.
Rendimiento: Haz pruebas de carga con tráfico en forma de picos y mide p95 y p99. Incluye caminos fríos y cálidos, además de dependencias como BD y APIs de terceros.
Fiabilidad: Confirma timeouts, reintentos y límites end-to-end. Asegura que los reintentos no multipliquen carga ni causen acciones duplicadas (como cobrar dos veces).
Velocidad de desarrollo: ¿Puede un desarrollador nuevo ejecutar el sistema local en menos de 30 minutos con configs y datos realistas? Si no, espera arreglos más lentos en incidentes.
Observabilidad: Elige una petición de usuario y verifica que puedas trazarla por cada salto (API gateway, función/pod, cola, base de datos). Confirma que los logs son buscables y las métricas responden “qué cambió?”.

Sé claro sobre la propiedad operativa. ¿Quién maneja upgrades, parches, rotación de certificados y respuesta a incidentes a las 2 a.m.? Una forma rápida de ver riesgos es listar las tareas “alguien tiene que hacerlo” y asignar un nombre a cada una antes de comprometerse.

Escenario ejemplo y pasos prácticos siguientes

Imagínate un SaaS con una API de administración usada por equipos financieros. La mayoría de días está tranquila, pero en día de nómina y fin de mes el uso sube 20x en 30 minutos. El tráfico es intensivo en APIs: muchas lecturas para reportes y ráfagas de escrituras que lanzan jobs en background.

En Kubernetes, ese pico suele activar autoscaling. Si el Horizontal Pod Autoscaler está bien afinado, salen pods nuevos y la API sigue respondiendo. La sorpresa no suele ser compute, sino lo que hay alrededor: la base de datos puede saturarse primero (conexiones, CPU, I/O) y entonces la API parece lenta aunque hayas añadido pods. Si el clúster no tiene capacidad sobrante, el escalado puede demorarse mientras se añaden nodos.

En serverless, la plataforma intentará absorber la ráfaga creando muchas instancias de función rápidamente. Eso es ideal para demanda corta e irregular, pero puedes chocar con dos paredes: picos de concurrencia y cold starts. Cuando cientos de instancias nuevas arrancan, las primeras peticiones pueden ir lentas y puedes golpear la base de datos con demasiadas conexiones paralelas si no diseñas defensas.

Un resultado realista para muchos equipos es un híbrido:

Mantener servicios de larga ejecución en Kubernetes (auth, API interna de administración)
Usar serverless para endpoints aislados y con picos (webhooks, exportes, procesamiento de archivos)
Proteger la base de datos con pooling, caché y límites estrictos en ambos mundos

Pasos prácticos que suelen resolver el debate más rápido que una hoja de cálculo:

Escoge un endpoint representativo (por ejemplo: “generar reporte mensual”).
Implémentalo de ambas formas con la misma base de datos y tamaño de payload.
Haz pruebas de carga en hora tranquila y en hora pico; registra p95, tasa de errores y coste total.
Añade guardarraíles: concurrencia máxima (serverless) y réplicas máximas (Kubernetes), más un límite de conexiones a BD.
Decide según tus propios números, no benchmarks genéricos.

Si quieres avanzar más rápido en el lado de aplicación mientras pruebas infra, AppMaster (appmaster.io) puede generar un backend listo para producción, una web y apps nativas desde bloques visuales, de modo que tu piloto se centre en comportamiento real de carga en vez de en andamiaje y código glue.

FAQ

Una carga con picos es tráfico que llega en ráfagas cortas e intensas con períodos de quietud entre ellas. En productos con muchas APIs, los picos hacen más daño porque una acción de usuario suele disparar muchas llamadas API pequeñas, que se acumulan rápido y generan reintentos si algo se enlentece.

Serverless suele ser una buena opción cuando el tráfico realmente cae casi a cero entre ráfagas y las peticiones son cortas. Kubernetes suele ser mejor cuando tienes una base de tráfico estable, objetivos de latencia más estrictos o quieres más control sobre el runtime y la red.

No tienes que elegir solo una. Muchas equipos usan un enfoque híbrido: mantienen APIs núcleo en Kubernetes para latencia predecible y tráfico constante, y usan serverless para tareas aisladas y con picos, como webhooks, jobs programados, procesamiento de archivos o backfills.

Con Kubernetes pagas por capacidad siempre encendida (nodos 24/7), incluso en horas tranquilas. Con serverless pagas por invocación, duración y memoria, lo que puede ser más barato con poco tiempo inactivo, pero los costes pueden explotar durante picos y por complementos como gateways, NATs, logs y egress de datos.

Los cold starts ocurren cuando una función ha estado inactiva y la plataforma debe iniciar una nueva instancia antes de ejecutar tu código. Los usuarios lo perciben como respuestas lentas en p95/p99, timeouts o reintentos, especialmente tras periodos de inactividad nocturna o cuando un pico obliga a iniciar muchas instancias a la vez.

Aligera la ruta de petición: reduce el tamaño del paquete, evita trabajo pesado en el arranque y usa cachés cuando ayude. Mantener algo de capacidad cálida puede ser necesario, y diseña el sistema para que un cold start no dispare carga extra downstream, por ejemplo abriendo muchas conexiones de base de datos a la vez.

Kubernetes puede tardar más si no hay capacidad libre en el clúster: los pods necesitan programarse, descargar imágenes y pasar checks de readiness, y quizá haya que agregar nodos. Serverless suele escalar más rápido, pero puedes chocar con límites de concurrencia y cuotas que provoquen throttling, cola o rechazos.

Los fallos suelen aparecer primero en dependencias, no en la CPU: bases de datos que agotan conexiones o I/O, APIs de terceros que limitan, y reintentos que amplifican la carga. Añadir más pods o funciones sin proteger estas dependencias puede empeorar el problema.

Kubernetes suele dar dolores locales por la configuración y la deriva: manifests, red, ingress y ciclos de build/deploy lentos. Serverless duele por la brecha local-cloud: formas de eventos, permisos (IAM) y comportamientos que solo existen en el proveedor, lo que empuja a depurar en la nube.

Empieza por los hechos del tráfico (baseline, pico, duración del pico) y define objetivos de p95/p99. Pilota un endpoint real de las dos formas, haz pruebas de carga con formas de pico y compara latencia, errores, ruido operativo y costes totales incluyendo red y observabilidad.