2025년 6월 18일·6분 읽기

스파이크성 워크로드: Kubernetes와 서버리스 함수 비교

스파이크성 트래픽을 가진 API 중심 제품에서 Kubernetes와 서버리스 함수의 비용, 콜드 스타트, 로컬 개발 마찰, 관찰성 트레이드오프를 비교합니다.

API 중심 제품에 대한 스파이크성 워크로드의 의미

스파이크성 워크로드는 트래픽이 일정하지 않을 때를 말합니다. 짧은 시간 동안 집중적으로 사용량이 급증하고, 다시 오랜 조용한 기간이 이어졌다가 또 다른 버스트가 옵니다. 버스트는 평상시의 10배, 100배가 될 수 있고 몇 분 만에 도달할 수 있습니다.

흔한 원인은 단순하지만 현실적입니다:

마케팅 이메일이나 광고 캠페인이 발송될 때
파트너 앱이 장애 후 재시도를 시작할 때
라이브 이벤트(티켓 판매, 웨비나, 제품 출시)
한 번에 작업을 퍼트리는 스케줄 잡
루프를 트리거하거나 반복 폴링을 유발하는 작은 버그

API 중심 제품은 사용자 동작을 여러 개의 작은 요청으로 바꾸기 때문에 스파이크를 더 민감하게 느낍니다. 하나의 화면 로드가 인증 체크, 기능 플래그, 검색, 추천, 감사 로그 등 여러 API 호출을 만들 수 있습니다. 트래픽이 급증하면 이런 호출들이 빠르게 쌓입니다. 심지어 한 의존성만 느려져도 타임아웃과 재시도가 발생하고, 클라이언트가 다시 시도하면서 트래픽이 더 늘어납니다.

구체적 예: 고객 포털이 하루 종일 정상적으로 동작하다가 캠페인으로 인해 수천 명이 5분 안에 로그인하면 인증, 프로필, 권한 엔드포인트에 부하가 몰립니다. 인증 서비스가 일시적으로 멈추거나 느리게 스케일하면 사용자는 "사이트가 다운됐다"고 느끼게 됩니다—실제로는 한 부분만 문제가 있어도 전체 경험이 망가집니다.

그래서 Kubernetes와 서버리스 함수의 비교는 단일한 "최고" 플랫폼을 찾는 문제가 아닙니다. 그것은 버스트 상황에서 드러나는 트레이드오프에 관한 문제입니다.

간단한 복습: Kubernetes와 서버리스를 쉽게 설명하면

사람들이 Kubernetes와 서버리스 함수를 비교할 때, 동일한 아이디어를 실행하는 두 가지 방식을 놓고 선택하는 셈입니다: 트래픽이 불규칙해도 요청에 빠르게 응답해야 하는 API를 운영하는 방식입니다.

Kubernetes(항상 실행되는 컨테이너)

Kubernetes는 일반적으로 항상 켜져 있는 컨테이너로 앱을 실행합니다. 컨테이너는 파드에 들어가고, Kubernetes는 클러스터 전반에 원하는 수의 파드를 유지합니다.

보통 서비스(여러분의 API)와 데이터베이스 프록시, 작업자, 캐시 같은 보조 구성요소를 함께 배포합니다. 트래픽이 늘어나면 Kubernetes는 오토스케일링으로 파드를 추가할 수 있습니다. 트래픽이 줄어들면 파드를 제거하지만, 특별히 설계하지 않는 한 완전히 0으로 내려가지는 않습니다.

Kubernetes는 관리형 서비스로 운영되는 경우가 많습니다(예: AWS, Azure, Google Cloud의 관리형 Kubernetes 클러스터). 물리 서버를 직접 관리하지는 않지만 플랫폼 선택과 유지보수는 여전히 필요합니다.

서버리스 함수(요청마다 실행되는 코드)

서버리스 함수는 코드가 필요할 때만 실행됩니다. 각 요청이 함수를 트리거하면 플랫폼은 필요한 만큼 인스턴스를 띄웠다가 요청이 멈추면 다시 줄입니다. 전형적인 "스케일 투 제로(scale to zero)" 모델입니다.

대부분 팀은 관리형 함수 플랫폼(AWS Lambda, Azure Functions, Google Cloud Functions 등)을 사용합니다. 코드는 여러분이 제공하고 런타임, 스케일링, 많은 인프라 세부사항은 제공자가 처리합니다.

관리형 서비스를 써도 배포, 시크릿, 모니터링, 로깅, 트레이싱, 타임아웃/메모리/동시성/쿼터 같은 한도 내에서 운영하는 책임은 여전히 여러분에게 있습니다.

비용 비교: 돈은 어디로 가나

비용은 보통 단지 "컴퓨트"만이 아닙니다. API 중심 제품에서는 비용이 컴퓨트, 네트워킹, 스토리지, 관리형 애드온, 그리고 운영에 드는 시간에 걸쳐 퍼집니다.

주요 비용 항목은:

컴퓨트: 노드와 예약 용량(Kubernetes) 대 호출당 실행 시간과 메모리(서버리스)
네트워킹: 로드밸런서, NAT, 프라이빗 네트워킹, 데이터 전송(egress)
스토리지: 데이터베이스, 캐시, 오브젝트 저장, 백업
관리형 서비스: API 게이트웨이, 큐, 시크릿, 아이덴티티, 스케줄러
운영 시간: 온콜 부담, 업그레이드, 보안 패치, 스케일 규칙, 사고 복구

유용한 사고방식은 "유휴에 비용을 지불(pay for idle)" 대 "사용량 기반으로 지불(pay per use)"입니다. Kubernetes는 밤새 조용할 때도 노드 비용을 24/7 지불하는 경우가 흔합니다. 서버리스는 코드가 실행될 때만 비용이 나는 경우가 많아, 트래픽이 완전히 0으로 떨어지는 패턴에서는 이득입니다.

단순 예: 마케팅 푸시 후 10분 동안 초당 50건의 요청이 발생하고 나머지 시간에는 거의 0인 API가 있다고 가정합시다. Kubernetes는 그 피크를 처리할 충분한 노드 용량을 확보해야 해서(혹은 느린 오토스케일을 감수해야 해서) 대부분의 시간 동안 대기하는 서버 비용을 낼 수 있습니다. 서버리스는 피크 동안 요청당 비용이 더 높을 수 있지만 조용한 시간에는 비용을 피할 수 있습니다.

팀을 놀라게 하는 건 숨겨진 비용입니다. NAT 게이트웨이나 로드밸런서는 요청이 적을 때도 고정 요금이 될 수 있습니다. 로그, 메트릭, 트레이싱은 요청량, 재시도, 수다스러운 미들웨어와 함께 조용히 커집니다. 함수가 서드파티 API를 호출하거나 파일을 스트리밍하거나 큰 페이로드를 반환하면 데이터 이그레스 비용이 빠르게 쌓입니다.

Kubernetes는 기준선 트래픽이 안정적이고 노드 활용도를 높게 유지할 수 있을 때 더 저렴할 수 있습니다(적절히 사이즈된 노드, 예약 인스턴스, 예측 가능한 트래픽). 서버리스는 요청이 짧고 스파이크가 드물며 서비스가 버스트 사이에 실제로 제로로 떨어질 수 있을 때 경제적일 수 있습니다.

실용적 팁: 평균 RPS가 아니라 실제 API 동작을 사용해 비용을 추정하세요. 버스트 크기, 페이로드 크기, 재시도, 그리고 유지하려는 관찰성 데이터 양을 포함하세요.

콜드 스타트와 지연 시간: 사용자가 실제로 느끼는 것

콜드 스타트는 간단합니다: 첫 요청이 "잠자고 있는" 함수를 만나면 플랫폼이 이를 깨워 코드가 실행되기 전 준비해야 합니다. 그 첫 호출은 느리고, 다음 100개의 호출은 빠를 수 있습니다.

API 중심 제품에서는 이것이 가장 아프게 나타납니다: p95와 p99 지연에서요. 대부분 사용자는 빠른 응답을 보지만 일부는 2~10초의 대기, 타임아웃, 또는 끝나지 않는 스피너를 경험합니다. 느린 아웃라이어는 클라이언트와 게이트웨이의 재시도를 유발해 시스템이 이미 힘든 시점에 추가 부하를 만듭니다.

콜드 스타트를 더 좋게 혹은 더 나쁘게 만드는 요소는 실무적 세부사항에 달려 있습니다:

런타임과 패키지 크기: 무거운 런타임과 큰 의존성은 더 오래 걸립니다
네트워크 설정: 프라이빗 네트워크에 붙는 것은 시작 시간을 늘릴 수 있습니다
메모리와 CPU 할당: 더 많은 자원은 시작 시간을 줄이지만 비용이 증가합니다
시작 시 외부 호출: 시크릿 가져오기, DB 연결, SDK 초기화
동시성 모델: 일부 플랫폼은 인스턴스당 하나의 요청만 처리해 버스트 동안 콜드 스타트가 더 자주 발생합니다

현실적 예: 모바일 앱에서 오전 9시에 "최근 주문" 화면을 열면, 함수가 밤새 유휴 상태였을 경우 첫 사용자는 6초짜리 응답을 받고 앱이 재시도합니다. 그러면 두 개의 요청이 같은 콜드 경로로 들어가고 사용자는 "이 앱은 느리다"는 인상을 받게 됩니다. 평균 지연은 괜찮아 보일 수 있지만 사용자 경험은 나쁩니다.

사용자 영향을 줄이는 방법은 보통 함께 쓰입니다: 소량의 웜 용량 유지, 큰 함수를 더 작은 단위로 분리해 필요한 부분만 시작하게 하기, 응답을 캐시해 콜드 경로로 가는 요청을 줄이기. 일부 팀은 워밍 핑을 예약하기도 하지만, 이는 취약하고 사실상 비용을 들여 우회하는 느낌일 수 있습니다.

Kubernetes는 파드가 서비스 뒤에서 계속 웜 상태를 유지할 수 있기 때문에 예측 가능한 지연에서 종종 유리합니다. 하지만 무관한 건 아닙니다: 제로 또는 매우 낮은 기준선에서 오토스케일에 의존하면 새 파드는 이미지 풀링, 시작, 헬스 체크 통과에 시간이 필요합니다. 차이점은 Kubernetes의 "콜드함"은 보통 더 통제 가능하지만 서버리스의 콜드 스타트는 완전히 제거하기 어려울 수 있다는 점입니다.

로컬 개발: 무엇이 고통스러운가

모바일 스파이크 동작 테스트

네이티브 모바일 앱을 생성해 재시도, 콜드 경로, 버스트가 기기에서 어떻게 느껴지는지 확인하세요.

모바일 앱 만들기

API 중심 제품의 로컬 작업은 지루하게 느껴지지 않아야 합니다. API를 실행하고 실제 엔드포인트를 호출해 요청을 끝까지 디버그하고, 테스트 데이터를 심고 자동화 테스트를 돌리는 과정을 환경을 추측하지 않고 할 수 있어야 합니다.

Kubernetes에서는 고통이 보통 셋업과 드리프트입니다. 로컬 클러스터(또는 공유 개발 클러스터)는 매니페스트, 서비스 디스커버리, 인그레스 규칙, 시크릿, 그리고 가끔 포드가 Postgres에 도달하지 못하는 이유를 몇 시간씩 찾는 등의 추가 요소를 동반합니다. 작동하더라도 루프는 느리게 느껴질 수 있습니다: 이미지 빌드, 푸시, 배포, 기다림, 재시도.

서버리스에서는 고통이 로컬과 클라우드 간의 간극인 경우가 많습니다. 에뮬레이터가 도움이 되지만, 많은 팀이 이벤트 페이로드를 약간만 잘못 만들어도 실제 환경에서 테스트하는 쪽을 택합니다. 일부 기능은 클라우드에서만 존재합니다(IAM 규칙, 매니지드 트리거, 공급자 전용 로깅). 분산된 요청을 안정적으로 로컬에서 재현하기 어려워 클라우드에서 디버깅하게 되는 상황이 생깁니다.

간단한 예: API가 주문을 생성하고 카드 결제를 하고 영수증을 보낸다고 합시다. Kubernetes에서는 결제와 메시징 의존성을 로컬에서 실행하려고 네트워킹과 구성으로 싸워야 할 수 있습니다. 서버리스에서는 올바른 함수 체인을 트리거하기 위해 이벤트 쉐이프와 권한 문제로 골머리를 앓을 수 있습니다.

피드백 루프를 빠르게 유지하세요

두 접근법 모두 예측 가능하게 느껴지도록 로컬 워크플로우를 목표로 하세요:

API와 의존성을 시드 데이터와 함께 한 명령으로 실행하게 하세요
구성은 일관성 있게 유지하세요(같은 환경 변수 이름, 같은 기본값)
외부 통합은 기본적으로 목(mock)으로 처리하고 필요할 때만 실제 연동을 켜세요(결제, 이메일/SMS 등)
비즈니스 로직은 Kubernetes 배선이나 함수 핸들러 없이 단위 테스트할 수 있는 평범한 모듈로 두세요
디버깅용으로 반복 가능한 "골든" 요청 세트를 유지하세요(사용자 생성, 주문 생성, 환불)

로컬 루프가 빠르면 Kubernetes 대 서버리스 논쟁은 덜 감정적이 됩니다. 매일 생산성 비용을 내지 않기 때문입니다.

관찰성: 일상적인 디버깅과 모니터링

좋은 관찰성은 세 가지 질문에 빠르게 답할 수 있게 해줍니다: 무엇이 고장났나, 어디가 고장났나, 왜 고장났나? 이를 위해 로그(무슨 일이 일어났나), 메트릭(얼마나 자주, 얼마나 느리게), 트레이스(단일 요청이 서비스들을 어떻게 통과했나)가 필요합니다. 접착제 역할을 하는 건 상관 ID로, 보통 요청 ID가 모든 홉을 따라가도록 합니다.

Kubernetes: 일관된 플러밍이 도움이 된다

장수명 서비스에서는 Kubernetes가 예측 가능한 모니터링 구축을 쉽게 만듭니다. 에이전트, 사이드카, 표준 네트워크 경로 덕분에 많은 서비스에서 로그, 메트릭, 트레이스를 일관되게 수집할 수 있습니다. 파드는 단일 요청보다 오래 살기 때문에 디버거를 붙이거나 프로파일을 캡처하고 시간에 따른 행동을 비교하기도 쉬우며, 호출 간에 사라지지 않습니다.

Kubernetes와 서버리스를 비교할 때 일상적 현실은 이 점에서 갈립니다: Kubernetes 환경이 더 안정적이라 도구와 가정이 덜 깨집니다.

서버리스: 호출 단위의 세부는 좋지만 종단 간 이야기는 까다롭다

서버리스 플랫폼은 보통 호출당 로그와 기본 메트릭을 보기 쉽게 제공합니다. 문제가 생기는 지점은 요청이 여러 함수, 큐, 서드파티 API를 지날 때입니다. 컨텍스트는 요청 ID를 모든 곳에 전달하지 않으면 사라집니다. 트레이싱은 플랫폼 기본 설정에 의해 제한받을 수 있고 샘플링은 팀을 혼란스럽게 합니다: 느린 트레이스 하나를 보고 그게 드문 사례라고 오해할 수 있습니다.

로그 볼륨도 흔한 놀라움입니다. 스파이크는 호출 수를 곱하고 수다스러운 로그는 비용 청구서로 이어질 수 있습니다.

두 환경에서 통하는 실용적 기준:

구조화된 로그(JSON)를 사용하고 request_id, user_id(안전할 경우), 서비스/함수 이름을 포함하세요
몇 가지 핵심 메트릭을 내보내세요: 요청 수, 오류율, p95 지연, 재시도 수
주요 API 경로와 핵심 의존성(DB, 결제, 메시징)에 대한 트레이스를 추가하세요
대시보드를 몇 개 유지하세요: 전체 상태, 의존성 상태, 상위 느린 엔드포인트
원인 전에 징후(오류율, 지연)에 대해 알림을 설정하세요(예: CPU, 메모리 같은 원인 대신)

예: 체크아웃이 인벤토리, 결제, 이메일을 호출하면 하나의 요청 ID로 전체 트레이스와 모든 로그를 몇 분 내에 모아야 합니다.

스케일링 동작: 버스트, 한계, 병목

실제 사용자 흐름 모델링

단순 데모가 아닌 실제 API 호출 패턴을 유발하는 웹 UI를 모델링하세요.

웹 앱 만들기

스파이크 트래픽에서는 스케일링이 기능 자체보다는 얼마나 빠르게 반응하는지, 무엇을 거부하는지, 무엇이 먼저 깨지는지가 중요합니다. Kubernetes와 서버리스 함수는 둘 다 버스트를 처리할 수 있지만 실패 방식이 다릅니다.

서버리스는 갑작스러운 버스트를 빠르게 흡수하는 경우가 많지만 강한 스로틀 한계에 걸릴 수 있습니다. 제공자는 동시에 실행할 수 있는 함수 인스턴스 수를 제한하고 계정/리전 쿼터에 걸릴 수 있습니다. 그 선을 넘으면 요청이 큐에 쌓이거나 느려지거나 거부됩니다. 램프업은 보통 빠르지만 즉각적이지는 않습니다.

Kubernetes 스케일링은 일단 작동하면 더 부드러운 편이지만 더 많은 구성 요소가 있습니다. 파드는 스케줄되고 이미지를 풀링하고 readiness 체크를 통과해야 합니다. 클러스터에 여유 용량이 없다면 새 노드가 추가될 때까지 기다려야 합니다. 이 때문에 10초짜리 스파이크가 몇 분의 고통으로 바뀔 수 있습니다.

비교해볼 만한 한계:

서버리스: 함수 동시성 캡, 초당 요청 한도, 다운스트림 연결 제한
Kubernetes: 파드 시작 시간, 노드 용량, 오토스케일러 반응 시간
공통: 데이터베이스 연결, 타사 API 레이트 리밋, 큐 깊이

상태 관리는 조용한 제약입니다. API 핸들러는 무상태여야 한다고 가정하고 상태는 데이터베이스, 캐시, 오브젝트 스토리지로 밀어넣으세요. 스파이크에 대해선 큐가 압력 완화 장치로 자주 쓰입니다: 요청을 빠르게 수락하고 작업을 순차적으로 처리하세요.

예: 프로모션으로 로그인과 웹훅 트래픽이 50배로 증가하면 컴퓨트는 스케일하더라도 병목은 데이터베이스(연결 과다)나 결제 제공자의 레이트 리밋인 경우가 많습니다. 컴퓨트 스케일링은 다운스트림 한계를 고칠 수 없습니다.

선택 방법: 단계별 결정 과정

보일러플레이트 건너뛰기, 더 빨리 테스트하세요

프로덕션 준비된 백엔드를 생성해 인프라 대신 스케일링과 한계 실험에 집중하세요.

AppMaster 사용해보기

Kubernetes와 서버리스 함수 사이에서 고민 중이라면 툴 논쟁이 아니라 제품 결정처럼 접근하세요. 먼저 사용자가 느끼는 것과 팀이 새벽 2시에 감당할 수 있는 것을 기준으로 하세요.

먼저 측정 가능한 사실을 모으세요:

트래픽 패턴을 측정하세요: 기준선 RPS, 피크 RPS, 스파이크 지속시간. 30초 스파이크와 2시간 서지(급증)는 전혀 다릅니다.
지연과 오류에 대한 SLO를 p95, p99 목표로 작성하세요. API 중심 제품에서는 꼬리 지연(tail latency) 문제가 사용자에게 곧바로 장애로 느껴질 수 있습니다.
각 요청이 닿는 의존성을 목록화하세요: DB, 캐시, 인증, 결제, 메시징, 서드파티 API, AI 호출 등. 이로써 콜드 스타트나 연결 한계가 어디서 문제를 일으킬지 보입니다.

다음으로 비용과 운영 비용을 모델링하고 테스트하세요:

실제 비용 요인을 담은 간단한 스프레드시트를 만드세요. 서버리스의 경우: 요청 수, 실행 시간, 메모리, 네트워킹/게이트웨이 비용. Kubernetes의 경우: 상시 가동 노드, 오토스케일 여유, 로드밸런서, 조용한 시간에도 지불하는 DB 용량 등.
하나의 실제 엔드포인트 또는 잡으로 파일럿을 만들어 비교하세요. p95/p99 지연, 오류율, 월간 비용, 온콜 노이즈(알림, 재시도, 타임아웃)를 비교하세요.
하이브리드가 최선인지 결정하세요: 꾸준한 트래픽의 핵심 API는 Kubernetes, 버스트성 크론, 웹훅, 백필(backfill)은 서버리스로.

예: 고객 포털은 로그인과 계정 API는 꾸준하지만 송장 발송 후 결제 웹훅이 버스트할 수 있습니다. 핵심 API를 Kubernetes에 두면 꼬리 지연을 보호하고, 웹훅 버스트는 서버리스로 처리해 유휴 비용을 피할 수 있습니다.

놀라운 청구서와 장애를 초래하는 흔한 실수

Kubernetes vs 서버리스 함수에서 가장 큰 함정은 "관리형이면 자동으로 더 저렴하다"고 가정하는 것입니다. 서버리스에서는 비용이 로그, 고카디널리티 메트릭, 함수 간 데이터 전송 같은 곳으로 옮겨갈 수 있어 팀이 놓치기 쉽습니다. 요청당 여러 개의 큰 로그 라인을 기록하면 작은 스파이크가 큰 비용으로 이어질 수 있습니다.

콜드 스타트도 전형적인 운영 환경의 놀라움입니다. 팀은 웜 환경에서 테스트하고 배포한 뒤, 조용한 시간에 스파이크가 오면 랜덤한 2~10초 요청과 재시도, 타임아웃을 경험합니다. 문제를 알아차렸을 때는 클라이언트가 이미 공격적인 재시도 로직을 추가해 스파이크를 악화시킨 경우가 많습니다.

Kubernetes 실패는 종종 과도한 초기 설계에서 비롯됩니다. 작은 팀이 트래픽이 안정되기 전에 클러스터, 인그레스, 오토스케일 규칙, 시크릿 관리, CI/CD, 업그레이드를 유지하게 되면 운영 부담이 커집니다. 구성 요소가 많을수록 새벽 2시에 망가질 가능성도 커집니다.

자주 반복되는 실수들:

함수나 파드를 상태ful하게 취급(로컬 디스크 쓰기, 인메모리 캐시, 스티키 세션 의존)
엔드투엔드 요청 ID를 배포하지 않아 느린 API 호출을 추적하기 어려움
모니터링을 지나치게 수집해 노이즈와 비용 증가
명확한 한계(동시성 캡, 큐 백프레셔)를 설정하지 않아 스파이크가 DB에 큰 부하를 줌

빠른 예: API 중심 제품이 매일 오전 9시에 모바일 앱에서 버스트가 일어나고, 각 요청이 세 개의 함수를 호출해 페이로드 전체를 로그로 남기면 비용이 급증하고 콜드 스타트가 사용자가 활동할 때 지연을 유발합니다.

확정 전에 확인할 체크리스트

빠르게 API를 세우세요

데이터베이스 모델링과 시각적 비즈니스 로직으로 실제 요청 경로에 맞는 API를 만드세요.

백엔드 만들기

팀이 Kubernetes와 서버리스 사이에서 토론할 때, 결정은 첫 번째 트래픽 스파이크, 장애, 혹은 청구서를 맞보기 전까지 명확하지 않을 수 있습니다. 실제 워크로드로 두 옵션을 압력 테스트하세요.

검증 가능한 숫자로 답을 작성하세요:

비용: 상위 3개 비용 요인을 식별하고 스파이크 동안 각 비용이 어떻게 확장되는지 파악하세요. 평균이 아니라 최악의 달을 추정하세요.
성능: 스파이크 모양의 부하 테스트로 p95와 p99 지연을 확인하세요. 웜/콜드 경로와 DB, 서드파티 같이 의존성을 포함하세요.
신뢰성: 타임아웃, 재시도, 레이트 리밋을 엔드투엔드로 확인하세요. 재시도가 부하를 증폭시키거나(예: 중복 결제) 중복 작업을 만들지 않도록 하세요.
개발 속도: 새 개발자가 현실적 구성과 테스트 데이터로 30분 이내에 시스템을 로컬에서 실행할 수 있나요? 못한다면 사고 대응 속도가 느려질 것입니다.
관찰성: 하나의 사용자 요청을 골라 API 게이트웨이, 함수/파드, 큐, DB 등 모든 홉을 추적할 수 있나요? 로그는 검색 가능하고 메트릭은 "무엇이 바뀌었나?"에 답하나요?

운영 책임을 분명히 하세요. 누가 업그레이드, 보안 패치, 인증서 교체, 새벽 사고 대응을 담당하나요? 커밋 전에 "누군가가 해야 할 일" 목록을 만들고 각 항목에 담당자를 지정하면 위험을 빨리 발견할 수 있습니다.

예시 시나리오와 실용적 다음 단계

관리자 API를 사용하는 SaaS 제품을 상상해보세요. 대부분의 날은 조용하지만 급여일과 월말에 사용량이 20배(30분 내)에 증가합니다. 트래픽은 API 중심: 리포트 조회를 위한 읽기 요청이 많고, 백그라운드 작업을 시작하는 쓰기 버스트가 발생합니다.

Kubernetes에서는 그 스파이크가 보통 오토스케일을 촉발합니다. Horizontal Pod Autoscaler가 잘 튜닝되어 있으면 새 파드가 올라오고 API는 응답성을 유지합니다. 놀라운 점은 보통 컴퓨트가 아니라 주변 요소입니다. 데이터베이스가 먼저 포화되기 쉬워(연결, CPU, I/O) 파드를 더 늘려도 API가 느려 보일 수 있습니다. 클러스터에 여유 용량이 부족하면 노드 추가 동안 스케일업이 지연됩니다.

서버리스에서는 플랫폼이 많은 함수 인스턴스를 빠르게 생성해 버스트를 흡수하려고 시도합니다. 짧고 불규칙한 수요에 좋지만 두 가지 날카로운 문제가 있습니다: 동시성 버스트와 콜드 스타트. 수백 개의 새 인스턴스가 동시에 시작되면 첫 요청은 느려지고 데이터베이스에 너무 많은 병렬 연결을 쏟아부어 스탬피드(동시 접속 폭주)가 발생할 수 있습니다.

많은 팀에게 현실적인 결과는 하이브리드입니다:

장수명 서비스는 Kubernetes에 두기(인증, 내부 관리자 API)
웹훅, 리포트 추출, 파일 처리처럼 격발성 엔드포인트는 서버리스로 처리
데이터베이스는 풀링, 캐싱, 엄격한 레이트 리밋으로 보호

문제를 빠르게 해결하는 실용적 다음 단계:

대표 엔드포인트 하나 선택(예: "월간 리포트 생성").
동일한 DB와 페이로드 크기로 두 방식 모두 구현.
조용한 시간과 피크 시간에 부하 테스트; p95 지연, 오류율, 전체 비용을 기록.
가드레일 추가: 서버리스의 최대 동시성, Kubernetes의 최대 레플리카, DB 연결 한도.
일반 벤치마크가 아니라 여러분의 수치로 결정을 내리세요.

더 빠르게 애플리케이션 쪽 작업을 진행하면서 인프라 실험을 병행하고 싶다면 AppMaster (appmaster.io)가 시각적 구성 요소로부터 프로덕션 준비된 백엔드, 웹 앱, 네이티브 모바일 앱을 생성해 파일럿이 스캐폴딩과 글루 코드가 아닌 실제 워크로드 동작에 집중하도록 도울 수 있습니다.

자주 묻는 질문

스파이크성 워크로드는 짧고 강한 트래픽 폭주와 그 사이의 조용한 기간이 반복되는 패턴입니다. API 중심 제품은 한 사용자 동작이 여러 개의 작은 API 호출을 발생시키는 경우가 많아, 하나의 지연이 곧바로 재시도와 누적 요청으로 이어져 훨씬 더 큰 문제로 느껴집니다.

요청이 짧고 버스트 사이에 실제로 거의 0에 가까운 트래픽이 발생한다면 서버리스가 좋은 선택인 경우가 많습니다. 반면에 기준선 트래픽이 꾸준하거나 지연 목표가 엄격하고 런타임과 네트워킹을 더 세밀하게 제어하고 싶다면 Kubernetes가 더 적합할 때가 많습니다.

필수는 아닙니다. 많은 팀이 하이브리드를 택합니다: 지연에 민감하고 꾸준한 핵심 API는 Kubernetes에 두고, 웹훅, 스케줄형 작업, 파일 처리처럼 격발성이고 격리된 작업은 서버리스로 처리하는 식입니다.

서버리스는 호출 수와 실행 시간 기반으로 비용이 발생하기 때문에 스파이크 동안 비용이 급증할 수 있습니다. 또한 게이트웨이, NAT, 로그, 데이터 송수신(egress) 같은 부가 요소가 청구서를 불투명하게 만들 수 있습니다. 반대로 Kubernetes는 항상 켜져 있는 노드 비용이 지속적으로 발생합니다.

콜드 스타트는 함수가 유휴 상태였다가 플랫폼이 새로운 인스턴스를 시작해야 할 때 발생합니다. 실제 사용자는 p95/p99 지연으로 느끼거나 타임아웃, 반복 재시도, spinner 상태를 경험할 수 있습니다. 특히 밤새 휴지 상태였다가 갑자기 요청이 몰리면 눈에 띕니다.

요청 경로를 가볍게 유지하세요: 패키지 크기를 줄이고, 시작 시 무거운 작업을 피하며 필요한 경우 적은 수의 워밍 인스턴스를 유지하세요. 또한 콜드 스타트로 인해 다운스트림에 과도한 부하(예: 데이터베이스 연결 폭주)가 발생하지 않도록 설계하는 것이 중요합니다.

Kubernetes는 노드 여유 용량이 없으면 느릴 수 있습니다(이미지 풀, readiness 통과 등 필요). 서버리스는 더 빠르게 램프업하지만 동시성 제한이나 계정/리전 쿼터에 걸릴 수 있어 스로틀링이나 거부가 발생할 수 있습니다. 요약하면: 서버리스는 빠르지만 한계가 날카롭고, Kubernetes는 반응이 더 부드럽지만 느릴 수 있습니다.

대부분의 경우 컴퓨트보다 의존성이 먼저 무너집니다. 데이터베이스 연결 제한, I/O 포화, 타사 API의 레이트 리밋이 흔한 병목입니다. 재시도가 병목을 악화시키기 쉬우니, 다운스트림 한계를 먼저 관찰하세요.

Kubernetes 로컬 개발의 고통은 주로 셋업과 환경 이탈(drift)에 있습니다: 매니페스트, 네트워킹, 인그레스, 느린 빌드/배포 루프. 서버리스는 로컬과 클라우드 간의 차이(이벤트 페이로드, IAM, 공급자 전용 동작) 때문에 클라우드에서 디버깅하게 만드는 경우가 많습니다.

트래픽 패턴(기준선, 피크, 스파이크 지속시간)을 먼저 수집하고 p95/p99 목표를 정하세요. 그런 다음 대표 엔드포인트 하나를 두 방식으로 구현해 스파이크 모양의 부하 테스트를 해 결과(지연, 오류, 비용, 온콜 노이즈)를 비교하세요.