2025년 3월 21일·6분 읽기

생성된 백엔드의 로깅 전략: 무엇을 기록하고 어떻게 마스킹할까

Q: 모든 로그 항목에 반드시 포함되어야 하는 필드는 무엇인가요?

기본적으로는 `event`, `severity`, `request_id`를 포함하고, `service`, `environment`, `route`, `status`, `duration_ms` 같은 실행 컨텍스트를 더하는 것이 좋습니다. `event`와 `request_id`가 없으면 유사한 문제를 그룹화하거나 한 사용자 행동을 끝까지 추적하기 어렵습니다.

Q: Security 로그와 Audit 로그의 차이는 무엇인가요?

`Security` 로그는 반복된 로그인 실패나 토큰 오용 같은 의심스러운 행동을 즉시 탐지하는 데 사용됩니다. `Audit` 로그는 나중에 누가 언제 어떤 중요한 작업을 했는지를 증명하기 위해 기록됩니다(권한 변경, 환불, 접속 권한 위임 등).

Q: 인증과 세션 처리에서 절대 기록하면 안 되는 것은 무엇인가요?

인증과 세션 처리 중에는 원시 비밀번호, 일회용 코드, 액세스/리프레시 토큰, `Authorization` 헤더, 쿠키, API 키, 전체 JWT를 절대 기록하지 마세요. 대신 결과(허용/거부)와 이유 코드, 내부 식별자(`user_id`, `request_id`)를 기록해 디버깅은 가능하되 로그가 자격증명 저장소가 되지 않도록 하세요.

Q: 카드나 고객 데이터를 노출하지 않으면서 Stripe 결제를 어떻게 로깅해야 하나요?

결제는 증명이 가능한 추적성이 핵심입니다. 공급자 ID와 내부 ID(`order_id`, `customer_id`)를 참조하는 작은 구조화된 이벤트로 결제 수명주기를 기록하세요. 금액, 통화, 상태 변화, 표준화된 오류 코드면 대부분 문제 매칭에 충분합니다. 카드 번호나 전체 청구지 등 민감 정보는 절대 로그에 남기지 마세요.

Q: 결제나 메시지 공급자의 웹후크를 가장 안전하게 기록하는 방법은?

웹후크는 봉투 정보(envelope)와 처리 결과만 기본적으로 로그하세요. 공급자 `event_id`, `event_type`, 수락 여부(accepted/rejected/retried)와 실패 시 명확한 거부 사유(signature check failed 등)면 재생과 조사에 충분합니다. 전체 페이로드는 정말 필요할 때만 별도의 접근 통제된 저장소에 보관하세요.

Q: 민감한 페이로드를 로그에 덤프하지 않고 비즈니스 워크플로를 검색 가능하게 하려면 어떻게 해야 하나요?

각 워크플로 실행을 `run_id`로 추적 가능한 이야기로 취급해 단계 시작, 완료, 실패, 재시도를 로그하세요. 입력/출력의 전체 내용을 기록하지 말고 스키마 이름, 포함된 필드 목록, 또는 안정적인 해시나 카운트(`items=3`, `total_cents=1299`)로 요약해 가시성을 유지하세요.

Q: 타사 API가 실패할 때 통합 로그에는 무엇을 포함시켜야 하나요?

외부 호출은 공급자 이름, 내부 작업 이름, 지연시간, 결과 상태, 재시도 횟수, `request_id` 같은 상관 식별자를 포함해 로그하세요. 실패 시 인증, 레이트 리밋, 유효성 오류, 타임아웃/네트워크, 공급자 장애 같은 안정적인 분류로 처리하면 대시보드와 알림이 더 유용해집니다.

생성된 백엔드를 위한 로깅 전략: 인증, 결제, 워크플로, 통합에서 무엇을 기록하고 PII(개인정보)를 어떻게 마스킹할지에 대한 명확한 규칙을 배웁니다.

로깅에는 계획이 필요하다 (단순한 로그 행 증가가 답은 아니다)

로그는 실제 질문에 빠르게 답할 때만 도움이 됩니다: 무엇이 고장났는가, 누가 영향을 받았는가, 그리고 무슨 일이 있었는지 증명할 수 있는가. 탄탄한 로깅 전략은 빠른 진단, 중요한 동작에 대한 신뢰할 수 있는 감사 추적, 사용자 데이터 보호라는 세 가지 요구를 동시에 균형 있게 충족시켜야 합니다.

계획이 없으면 팀은 보통 두 가지 문제에 부딪힙니다. 디버그에 충분한 세부 정보가 없거나, 너무 많은 세부 정보로 민감한 정보가 유출되는 경우입니다. 두 번째 문제는 대시보드, 백업, 타사 도구로 로그가 복제되기 때문에 되돌리기 더 어렵습니다.

유용성과 노출 사이에는 항상 긴장이 있습니다. 요청을 서비스와 워크플로 전반에서 추적할 만큼의 컨텍스트는 원하지만, 비밀과 개인 데이터에 대한 명확한 금지선도 필요합니다. “모든 것을 로그하라”는 전략이 아니라 리스크입니다.

로그를 보는 사람은 목적이 다릅니다. 개발자는 스택 트레이스, 실패한 입력, 수행 시간을 찾고, 지원팀은 사용자가 재현할 수 있는 안전한 단서를 필요로 하며, 보안팀은 반복된 실패 로그인 같은 패턴을 관찰합니다. 컴플라이언스 팀과 감사자는 누가 언제 무엇을 했는지에 관심이 있습니다.

비기술팀에는 기대치를 일찍 설정하세요: 로그는 데이터베이스가 아니며 “혹시 몰라서 세부를 저장해두는 곳”이 아닙니다. 고객에게 보이는 기록이 필요하면 적절한 접근 제어, 보존 규칙, 동의 관리를 갖춘 테이블에 보관하세요. 로그는 단기간의 운영 증거로 짧게 유지되어야 합니다.

AppMaster 같은 플랫폼으로 빌드한다면 로깅을 백엔드 제품의 일부로 다루고 사후 고려사항으로 두지 마세요. 어떤 이벤트를 추적해야 하는지(인증, 결제, 워크플로 단계, 통합), 어떤 필드는 항상 안전한지, 어떤 필드는 마스킹/삭제해야 하는지를 미리 결정하면 앱이 재생성되고 확장되어도 로그 일관성을 유지할 수 있습니다.

평이한 언어로 정리한 로그 유형과 레벨

실용적인 전략은 기록하는 메시지 종류에 대해 공통의 이름을 정하는 것에서 시작합니다. 모두가 같은 레벨과 이벤트 이름을 쓰면 더 빠르게 검색하고, 신뢰성 있게 알림을 설정하며, 실제 문제를 가리는 소음성 로그를 피할 수 있습니다.

실제로 쓸 수 있는 로그 레벨

로그 레벨은 긴급성에 관한 것이지 “얼마나 긴 텍스트냐”의 문제가 아닙니다. 소수의 레벨로 대부분의 상황을 다룰 수 있습니다:

Debug: 개발자용 자세한 정보(보통 운영에서는 비활성화).
Info: 정상적이고 기대되는 이벤트(사용자 프로필 업데이트, 작업 완료 등).
Warn: 예외적이지만 시스템은 동작하는 상태(재시도, 느린 쿼리 등).
Error: 동작 실패로 주의가 필요한 상태(결제 생성 실패, DB 오류 등).
Security: 의심스럽거나 민감한 상황(토큰 오용 패턴, 반복된 실패 로그인).
Audit: 컴플라이언스와 조사용으로 ‘누가 언제 무엇을 했는지’ 기록.

Security와 Audit은 자주 혼동됩니다. Security 로그는 위협을 탐지하는데 도움을 주고, Audit 로그는 나중에 무슨 일이 있었는지를 재구성하고 증명하는 데 도움을 줍니다.

구조화된 로그: 자유 텍스트보다 일관된 필드가 낫다

자유 텍스트 로그는 필터링하기 어렵고 실수하기 쉽습니다. 구조화된 로그는 매번 같은 필드를 유지(보통 JSON)해 검색과 대시보드가 신뢰성을 갖게 합니다. 생성된 코드에서는 일관성이 큰 장점이므로 더 중요합니다.

단락 문장 대신 event_name, request_id, user_id, status 같은 필드를 가진 이벤트를 로깅하세요.

이벤트 vs 트레이스 vs 메트릭

일상 대화에서는 겹치지만 서로 다른 문제를 해결합니다:

Event (log): 한 번 발생한 단일 사건(로그인 성공, 웹후크 수신).
Trace: 한 요청의 서비스 간 경로.
Metric: 시간이 지남에 따른 수치(오류율, 대기열 길이, 결제 지연).

시간 규칙: 하나를 골라 지키세요

ISO 8601 타임스탬프를 사용하고 모든 로그를 UTC로 기록하세요. 사용자 시간대가 표시상 필요하면 별도 필드로 저장하세요. 이렇게 하면 사고 대응 중 시간대 혼란을 피할 수 있습니다.

실용적 분류: 모든 로그에 공통으로 들어가야 할 필드

핵심 결정은 간단합니다: 중요한 이벤트는 사람이 읽을 수 있어야 하고 기계로 필터링할 수 있어야 합니다. 즉 짧은 메시지와 일관된 필드를 유지하세요.

핵심 필드(항상 사용)

모든 로그 항목이 동일한 백본을 가지면 백엔드가 재생성되거나 재배포되어도 한 요청을 여러 서비스와 배포판에서 추적할 수 있습니다.

timestamp와 severity(info/warn/error)
event(예: auth.login.succeeded 같은 안정적인 이름)
service, environment, build(버전 또는 커밋)
request_id(들어오는 요청 당 고유)
route, status, duration_ms

severity, event, request_id는 필수로 취급하세요. 이들이 없으면 로그를 신뢰성 있게 검색, 그룹화, 연관시킬 수 없습니다.

컨텍스트 필드(관련 있을 때만 추가)

컨텍스트는 로그를 쓸모 있게 만드나 데이터 덤프로 바뀌지 않게 주의하세요. 시스템이 무엇을 시도하고 있었는지 설명하는 필드를 추가하세요.

user_id(내부 ID, 이메일이나 전화번호 아님)
tenant_id 또는 org_id(멀티테넌트 앱 경우)
workflow(프로세스 이름 또는 단계)
integration(공급자/시스템 이름)
feature_flag(동작을 바꾼 플래그 키)

AppMaster 백엔드에서 로직이 Business Process를 통해 실행된다면 workflow와 step을 로깅하면 요청이 어디에서 지연됐는지 보여주면서 메시지를 짧게 유지할 수 있습니다.

메시지 텍스트는 한 줄 요약(무슨 일이 일어났는지)으로 유지하고 세부는 필드에 넣으세요(왜 발생했는지). 예시 구조화된 로그:

{
  "severity": "info",
  "event": "payment.intent.created",
  "service": "backend",
  "environment": "prod",
  "build": "2026.01.25-1420",
  "request_id": "req_8f3a...",
  "route": "POST /checkout",
  "status": 200,
  "duration_ms": 184,
  "user_id": 48291,
  "tenant_id": 110,
  "integration": "stripe"
}

이 접근법을 따르면 코드를 재생성하거나 인프라를 바꾸고 워크플로를 추가해도 로그를 시간에 걸쳐 비교 가능하게 유지할 수 있습니다.

인증(Auth) 로깅: 자격 증명을 노출하지 않고 무엇을 기록할지

인증 로그는 계정 탈취 시도나 사용자가 “로그인할 수 없었어요”라고 할 때 문제를 파악하게 해 줍니다. 동시에 팀이 실수로 비밀을 유출하는 장소이기도 합니다. 목표는 높은 추적성과 민감 값 0 노출입니다.

인증은 서로 다른 니즈를 충족하는 두 트랙으로 다루세요:

Audit logs: "누가 무엇을 언제 했는가"에 답합니다.
Debug/ops logs: "왜 실패했는가"를 설명합니다.

인증과 세션에서 기록할 항목

상관 또는 요청 ID로 연관할 수 있게 안정적인 이름의 구조화된 항목으로 주요 이벤트를 기록하세요.

로그인 시도(성공/실패)와 함께 bad_password, unknown_user, mfa_required, account_locked 같은 이유 코드를 기록하세요. MFA 수명주기(챌린지 발행, 방식, 성공/실패, 폴백 사용)를 추적하고 비밀번호 재설정 이벤트(요청, 토큰 발송, 토큰 검증, 비밀번호 변경)와 세션/토큰 수명(생성, 갱신, 폐기, 만료)도 기록하세요. 관리자 권한 변경이나 계정 비활성화/활성화 같은 관리자 조치도 기록하세요.

AppMaster의 생성된 백엔드와 인증 모듈을 사용하는 경우 내부 구현 세부사항보다 비즈니스 결과(허용 또는 거부)에 집중하세요. 이렇게 하면 앱이 재생성될 때에도 로그가 안정적으로 유지됩니다.

권한 결정(Authorization)

중요한 허용 또는 거부 결정은 설명 가능해야 합니다. 자원 유형과 액션, 사용자 역할, 간단한 이유 코드를 로그하세요. 전체 객체나 쿼리 결과를 기록하지 마세요.

예: 지원 담당자가 관리자 전용 화면을 열려고 할 때는 decision=deny, role=support, resource=admin_panel, reason=insufficient_role 같은 항목을 남기세요.

비밀 마스킹과 보안 신호 캡처

비밀번호, 일회용 코드, 복구 코드, 원시 액세스/리프레시 토큰, 세션 ID, API 키, Authorization 헤더, 쿠키, 전체 JWT, 이메일/SMS 인증 메시지의 전체 내용은 절대 기록하지 마세요.

대신 안전한 신호를 기록하세요: 해시하거나 잘라낸 식별자(예: 토큰 해시의 마지막 4자리), IP와 사용자 에이전트(마스킹 고려), 이상 징후 카운터(많은 실패, 지리적 위치 급격한 변경, 반복된 토큰 오용). 이런 신호는 공격을 탐지하는 데 도움을 주면서 공격자에게 필요한 정보를 제공하지 않습니다.

결제(Payments) 로깅: Stripe 등 공급자에 대한 추적성

내부 도구 프로토타입 만들기

로깅 체크리스트를 동작하는 관리자 도구(백엔드 + UI)로 바꿔보세요.

개발 시작

결제 로그는 이 결제에 무슨 일이 일어났는지 빠르게 답할 수 있어야 합니다. 추적성에 집중하고 원시 페이로드는 피하세요.

결제 수명주기를 작은 일련의 일관된 이벤트로 기록하세요. 모든 것을 기록할 필요는 없지만 중요한 전환 포인트는 다뤄야 합니다: intent 생성, 확인, 실패, 환불, 분쟁 또는 차지백.

각 이벤트에 대해서는 공급자 대시보드와 서포트 티켓을 매칭할 수 있는 간결한 참조를 보관하세요:

provider(예: Stripe)
provider_object_id(payment_intent, charge, refund, dispute ID)
amount와 currency
status(created, confirmed, failed, refunded, disputed)
error_code와 짧고 정규화된 error_message

디버그 모드에서도 민감한 데이터는 로그에 남기지 마세요. 전체 카드 번호, CVC, 전체 청구 주소를 절대 기록하지 마세요. 고객 연동이 필요하면 내부 customer_id와 내부 order_id를 로그하고 전체 이름, 이메일, 주소는 남기지 마세요.

웹후크: 본문이 아니라 봉투를 기록하세요

웹후크는 소음이 많고 예상보다 많은 개인 정보를 포함하는 경우가 있습니다. 기본적으로는 event_id, event_type, 처리 결과(accepted, rejected, retried)만 로그하세요. 거부할 경우 서명 검증 실패, 알 수 없는 객체, 중복 이벤트 같은 명확한 이유를 기록하세요. 전체 페이로드는 진짜 필요할 때만 접근 통제된 장소에 저장하세요.

분쟁과 환불은 감사 추적이 필요합니다

환불과 분쟁 응답은 위험도가 높습니다. 누가 조치를 트리거했는지(user_id 또는 service_account), 언제 발생했는지, 요청한 내용(환불 금액, 이유 코드)을 기록하세요. AppMaster에서는 Business Process 안에 명확한 로그 단계를 추가해 Stripe를 호출하는 경우가 많습니다.

예: 지원 담당자가 $49 주문을 환불한 경우, 로그에는 order_id, Stripe 환불 ID, 담당자 user_id, 타임스탬프, 최종 상태가 카드나 주소 등 민감 정보를 노출하지 않고 보여야 합니다.

워크플로 로깅: 비즈니스 프로세스를 관찰 가능하게 유지하기

워크플로는 비즈니스가 실제로 일어나는 곳입니다: 주문 승인, 티켓 라우팅, 환불 요청, 고객 통지 등. 시각적 프로세스(예: AppMaster의 Business Process Editor)로부터 생성된 백엔드라면 로깅은 코드가 아니라 워크플로를 따라야 합니다. 그렇지 않으면 오류는 보이지만 전체 이야기를 알기 어렵습니다.

워크플로 실행을 이벤트 시퀀스로 취급하세요. 간단하게 유지하세요: 단계 시작, 완료, 실패, 재시도. 이 모델이면 다수 실행이 동시에 일어나도 무엇이 일어났는지 재구성할 수 있습니다.

각 워크플로 이벤트에는 일관된 소규모 필드 집합을 포함하세요:

워크플로 이름과 버전(또는 마지막 편집 타임스탬프)
run_id(실행 별 고유 ID)
step 이름, step 타입, 시도 횟수
이벤트 타입(started, completed, failed, retried)과 상태
타이밍(단계 소요 시간과 현재까지의 총 런타임)

입력과 출력은 문제가 되는 부분입니다. 데이터 형태(shape)를 기록하고 데이터 자체는 남기지 마세요. 스키마 이름, 포함 필드 목록, 안정적 해시를 선호하세요. 디버깅이 더 필요하면 카운트와 범위(items=3, total_cents=1299)를 기록하세요.

운영자(관리자) 행동은 결과를 바꾸기 때문에 일급 이벤트로 다루어야 합니다. 관리자 승인, 실행 취소, 단계 오버라이드가 일어났다면 누가(user_id, 역할), 무엇을(액션), 이유(reason code), 이전/이후 상태를 기록하세요.

예: “Expense approval” 워크플로가 “Notify manager” 단계에서 메시징 장애로 실패했다면 좋은 로그는 run_id, 실패한 단계, 재시도 횟수, 대기 시간 등을 보여줘야 합니다. 그런 정보로 결국 전송되었는지, 누가 승인을 했는지, 어떤 실행이 막혀 있는지 답할 수 있습니다.

통합(Integration) 로깅: API, 메시징, 타사 서비스

사건 설명을 쉽게 만들기

핵심 이벤트와 워크플로를 모델링해 팀이 몇 분 내에 사건을 설명하도록 만드세요.

데모 구성

통합은 백엔드가 조용히 실패하는 곳입니다. 사용자는 “문제가 생겼다”를 보지만 실제 원인은 레이트 리밋, 만료된 토큰, 느린 공급자일 수 있습니다. 통합 로그는 외부 호출을 로그에서 쉽게 추적할 수 있게 하되 타사 데이터를 통째로 복사하지 않도록 해야 합니다.

각 통합 호출을 일관된 형태의 이벤트로 로그하세요. “무슨 일이 일어났는가”와 “얼마나 걸렸는가”에 초점을 두고 페이로드 덤프는 피하세요.

외부 호출마다 기록할 항목

디버그, 측정, 감사에 충분한 정보를 캡처하세요:

공급자 이름(예: Stripe, Telegram, email/SMS, AWS, OpenAI)
엔드포인트 또는 작업 이름(내부 이름, 전체 URL이 아님)
방법/액션, 상태/결과, 지연(ms), 재시도 횟수
상관 식별자(당신의 request_id와 공급자 측 ID)
회로 차단기/백오프 이벤트(opened, half-open, closed, retry_scheduled)

단일 고객 액션이 이메일과 결제 확인을 모두 트리거하면 같은 request_id가 관련 로그에 모두 나타나야 하고 공급자 메시지 ID나 결제 ID도 가능하면 함께 기록하세요.

호출 실패 시 공급자 간에도 일관된 분류로 정리하세요. 이렇게 하면 대시보드와 알림이 원시 오류 텍스트보다 훨씬 유용합니다.

auth error(만료된 토큰, 잘못된 서명)
rate limit(HTTP 429 또는 공급자별 코드)
validation error(잘못된 파라미터, 스키마 불일치)
timeout/network(connect timeout, DNS, TLS)
provider fault(5xx, 서비스 불가)

기본적으로 요청이나 응답 본문을 덤프하지 마세요. 디버깅 샘플을 캡처해야 한다면 단명하는 플래그 뒤에 두고 먼저 정제(토큰, 비밀, 이메일, 전화번호, 전체 주소 제거)하세요. AppMaster처럼 많은 통합이 시각적으로 구성되는 환경에서는 흐름이 바뀌어도 로그 필드를 일관되게 유지하세요.

개발자가 따를 수 있는 PII-안전 마스킹 규칙

API 안전하게 연결하기

타사 페이로드를 덤프하지 않고 결과와 지연시간을 로깅하세요.

통합 생성

마스킹은 지루하고 자동적으로 작동할 때 가장 잘됩니다. 로그는 디버깅과 감사를 도우면서도 누군가 로그를 통해 사람의 신원을 재구성하거나 접근권을 탈취하지 못하게 해야 합니다.

민감 데이터를 몇 개의 버킷으로 묶어 모두가 같은 용어를 쓰게 하세요:

식별자: 전체 이름, 국가 ID, 사람과 연결된 고객 ID
연락처: 이메일, 전화번호, 배송 주소
금융: 카드 번호, 은행 정보, 지급 정보
위치와 건강: 정확한 위치, 의료 데이터
자격증명: 비밀번호, API 키, 세션 쿠키, OAuth 코드, 리프레시 토큰

각 버킷에 대해 하나의 동작을 정하고 지키세요:

완전 삭제: 자격증명, 비밀, 원시 토큰, 전체 카드 번호
마스킹: 이메일과 전화(지원용으로 일부만 유지)
잘라내기(Truncate): 길이 긴 자유 텍스트 필드(지원 메모 등)
해시: 그룹화만 필요하면 키드 해시 사용(일반 SHA 대신 키드 해시)
토크나이즈: 내부 참조로 교체하고 실제 값은 다른 곳에 저장

안전한 예시(로그에 남길 항목):

이메일: j***@example.com(로컬 파트 마스킹, 도메인 유지)
전화: ***-***-0199(끝 2-4자리 유지)
주소: 전체 주소는 버리고 필요하면 country나 region만 기록
토큰: 토큰 자체는 제거하고 token_present:true 또는 토큰 타입만 기록

마스킹은 중첩 객체와 배열 내부에서도 동작해야 합니다. 결제 페이로드에 customer.email이나 charges[].billing_details.address가 있다면 로거가 최상위 필드만 검사하면 실제 유출을 놓칩니다.

허용 목록(allowlist) 우선 접근을 사용하세요. 항상 안전한 소수 필드(request_id, user_id, event, status, duration_ms)와 민감 키의 블랙리스트(password, authorization, cookie, token, secret, card_number)를 정의하세요. AppMaster 같은 도구에서는 이 규칙을 공통 미들웨어에 넣어 모든 엔드포인트와 워크플로가 같은 안전 기본값을 상속받게 하세요.

단계별로 전략을 구현하는 방법

코드에 손대기 전에 로그 스키마를 적어두세요. 생성된 백엔드(예: AppMaster가 생성한 Go 서비스)라면 재생성을 견디는 계획: 일관된 이벤트 이름, 일관된 필드, 마스킹이 집행되는 한곳을 만들고 유지하세요.

간단한 롤아웃 계획

규칙을 모든 곳에 적용하세요: API 핸들러, 백그라운드 작업, 웹후크, 예약 워크플로.

auth.login_succeeded, payment.webhook_received, workflow.step_failed, integration.request_sent 같은 재사용 가능한 이벤트 이름을 정의하고 각 이벤트에 필요한 필드를 결정하세요.
상관 필드를 일찍 추가하고 필수로 만드세요: request_id, trace_id(있다면), user_id(또는 익명), 멀티테넌시의 경우 tenant_id. 엣지에서 request_id를 생성하고 내부 호출마다 전달하세요.
마스킹은 로그 경계에서 실행되게 하세요. 요청과 응답 본문에서 민감 키를 제거/마스킹하는 미들웨어나 로깅 래퍼를 사용하세요.
환경별로 로그 레벨을 설정하세요. 운영에서는 핵심 이벤트에 info, 실패에는 warn/error를 사용하고 과도한 디버그 페이로드 덤프는 피하세요. 개발에서는 더 많은 디테일을 허용하되 마스킹은 켜 두세요.
현실적인 테스트 페이로드로 작동을 증명하세요. 이메일, 전화번호, 액세스 토큰 같은 PII를 의도적으로 포함하고 저장된 로그가 안전한 값만 보여주는지 확인하세요.

배포 후에는 한 달에 한 번 사고 연습을 하세요. 시나리오(실패한 Stripe 웹후크 재생, 로그인 실패 급증, 멈춘 워크플로)를 골라 로그가 무엇이, 누구에게, 언제, 어디서 일어났는지를 비밀 노출 없이 답하는지 확인하세요.

스키마가 자체 보정되게 만들기

필수 필드 누락을 무시하기 어렵게 만드세요. 좋은 습관은 필수 필드가 없으면 빌드를 실패하게 하고 운영 로그에서 샘플 체크를 하는 것입니다:

원시 비밀번호, 토큰, 전체 카드 정보가 없는가
모든 요청에 request_id와(해당되면) tenant_id가 있는가
오류에는 전체 페이로드 덤프가 아니라 안전한 error_code와 컨텍스트가 포함되어 있는가

위험이나 사각지대를 만드는 흔한 실수

추적 가능한 워크플로 설계

Business Process에서 고객 데이터 유출 없이 단계 시작과 실패를 로깅하세요.

워크플로 생성

로그가 덤프장이 되거나 위험을 키우면 쓸모없거나 위험해집니다. 목표는 명확성입니다: 무슨 일이 일어났는가, 왜 일어났는가, 무엇이 이를 촉발했는가.

1) 비밀을 눈치채지 못하고 유출

대부분의 유출은 실수입니다. 요청 헤더, 인증 토큰, 쿠키, 웹후크 서명, 전체 페이로드를 출력하는 “도움 되는” 디버깅이 주범입니다. Authorization 헤더나 결제 공급자 웹후크 비밀이 포함된 한 줄의 로그가 로그 저장소를 자격증명 금고로 바꿀 수 있습니다.

코드를 생성하는 플랫폼을 사용한다면 경계(ingress, webhook 핸들러, 통합 클라이언트)에서 마스킹 규칙을 설정해 모든 서비스가 동일한 안전 기본값을 상속받게 하세요.

2) 검색 불가능한 자유 텍스트 로그

“User failed to login” 같은 로그는 읽기에는 좋지만 분석하기 어렵습니다. 자유 텍스트는 이벤트 유형으로 필터링하거나 오류 이유를 비교하거나 알람을 만드는 것을 어렵게 만듭니다.

구조화된 필드(event, actor_id, request_id, outcome, reason_code)를 선호하세요. 사람 문장은 선택적 맥락으로 두세요.

3) 페이로드는 과다 로깅하고 결정은 과소 기록

팀이 전체 요청/응답 바디를 기록하면서도 중요한 결정을 로그하지 않는 일이 자주 발생합니다. 예: “payment rejected”는 기록하지만 공급자 상태는 남기지 않음, “access denied”는 남기지만 정책 규칙은 기록하지 않음, “workflow failed”는 남기지만 단계와 이유 코드는 없음.

문제가 생겼을 때는 원시 페이로드보다 결정 트레일이 더 필요합니다.

4) 감사 로그와 디버그 로그 혼합

감사 로그는 안정적이고 검토하기 쉬워야 합니다. 디버그 로그는 시끄럽고 자주 바뀝니다. 섞이면 컴플라이언스 검토가 번거롭고 중요한 감사 이벤트가 묻힙니다.

명확한 선을 유지하세요: 감사 로그는 누가 언제 무엇을 했는지, 디버그 로그는 시스템이 그 상태에 이르기까지의 내부 과정을 설명합니다.

5) 보존 정책 없음

로그를 영구 저장하면 위험과 비용이 커지고, 너무 빨리 삭제하면 사고 대응과 차지백 조사에 지장이 생깁니다.

로그 유형별(감사 vs 디버그) 보존 기간을 정하고, 내보내기, 백업, 타사 로그 싱크가 동일한 정책을 따르는지 확인하세요.

빠른 체크리스트와 다음 단계

로그가 제대로 기능하면 한 요청에 대해 다음 질문에 빠르게 답할 수 있어야 합니다: “이 요청에 무슨 일이 일어났나?” 아래 체크로 사고 전에 격차를 발견하세요.

빠른 체크리스트

실제 운영 요청(또는 이에 상응하는 스테이징 실행)을 사용해 다음을 확인하세요:

엔드 투 엔드 트레이스: 단일 request_id로 사용자 행동을 서비스 전반에서 추적하고 주요 홉을 볼 수 있는가?
인증 안전성: 인증 로그가 비밀번호, 세션 쿠키, JWT, API 키, 매직 링크, 리셋 토큰을 100% 피하는가?
결제 추적성: 결제 로그가 공급자 식별자와 상태 변화를 기록하면서 카드 데이터나 전체 청구 정보는 남기지 않는가?
워크플로 가시성: 비즈니스 프로세스가 run_id와 step_name으로 검색 가능하며 시작/성공/실패와 소요 시간을 명확히 기록하는가?
통합 명료성: 타사 호출에 대해 공급자, 작업 이름, 지연, 상태, 안전한 오류 요약을 기록하고 페이로드를 덤프하지 않는가?

어떤 항목이라도 “대부분”이라면 “아니오”로 취급하세요. 규칙이 일관되고 자동화되어야만 작동합니다.

다음 단계

체크리스트를 팀이 강제할 수 있는 규칙으로 바꾸세요. 작게 시작하세요: 하나의 공유 스키마, 하나의 마스킹 정책, 민감 필드가 새어 나오면 실패하도록 하는 테스트 몇 개.

로그 스키마(공통 필드와 명명 규칙)와 마스킹 목록(무엇을 마스킹/해시/삭제할지)을 문서화하세요. 원시 요청 본문, 헤더, 필터링되지 않은 사용자 객체를 포함하는 로그를 거부하는 코드 리뷰 규칙을 추가하세요. 인증, 결제, 워크플로, 통합용으로 몇 가지 “안전한 로그 이벤트” 템플릿을 만들어 사람들이 일관된 패턴을 복사하도록 하세요. 금지된 필드(password, token, authorization)를 탐지하는 자동 검사(유닛 테스트나 린트 규칙)를 추가하고 분기별로 샘플링, 로그 레벨, 보존 정책이 위험과 컴플라이언스 요구에 맞는지 확인하세요.

AppMaster로 구축 중이라면 이 규칙을 중앙화해 생성되는 Go 백엔드, 워크플로, 통합 전반에서 재사용하세요. 스키마와 마스킹 로직을 한곳에 두면 앱이 appmaster.io에서 재생성될 때 변경을 관리하기가 훨씬 쉽습니다.

자주 묻는 질문

사건 대응 시 로그가 답해주어야 하는 질문들을 먼저 적어보세요: 무엇이 실패했는가, 누가 영향을 받았는가, 어디에서 발생했는가. 그런 다음 event, severity, request_id, service, environment처럼 팀 전체가 일관되게 사용할 작은 스키마를 정의하면 검색과 상관관계 분석이 쉬워집니다.

기본적으로는 event, severity, request_id를 포함하고, service, environment, route, status, duration_ms 같은 실행 컨텍스트를 더하는 것이 좋습니다. event와 request_id가 없으면 유사한 문제를 그룹화하거나 한 사용자 행동을 끝까지 추적하기 어렵습니다.

Security 로그는 반복된 로그인 실패나 토큰 오용 같은 의심스러운 행동을 즉시 탐지하는 데 사용됩니다. Audit 로그는 나중에 누가 언제 어떤 중요한 작업을 했는지를 증명하기 위해 기록됩니다(권한 변경, 환불, 접속 권한 위임 등).

인증과 세션 처리 중에는 원시 비밀번호, 일회용 코드, 액세스/리프레시 토큰, Authorization 헤더, 쿠키, API 키, 전체 JWT를 절대 기록하지 마세요. 대신 결과(허용/거부)와 이유 코드, 내부 식별자(user_id, request_id)를 기록해 디버깅은 가능하되 로그가 자격증명 저장소가 되지 않도록 하세요.

결제는 증명이 가능한 추적성이 핵심입니다. 공급자 ID와 내부 ID(order_id, customer_id)를 참조하는 작은 구조화된 이벤트로 결제 수명주기를 기록하세요. 금액, 통화, 상태 변화, 표준화된 오류 코드면 대부분 문제 매칭에 충분합니다. 카드 번호나 전체 청구지 등 민감 정보는 절대 로그에 남기지 마세요.

웹후크는 봉투 정보(envelope)와 처리 결과만 기본적으로 로그하세요. 공급자 event_id, event_type, 수락 여부(accepted/rejected/retried)와 실패 시 명확한 거부 사유(signature check failed 등)면 재생과 조사에 충분합니다. 전체 페이로드는 정말 필요할 때만 별도의 접근 통제된 저장소에 보관하세요.

각 워크플로 실행을 run_id로 추적 가능한 이야기로 취급해 단계 시작, 완료, 실패, 재시도를 로그하세요. 입력/출력의 전체 내용을 기록하지 말고 스키마 이름, 포함된 필드 목록, 또는 안정적인 해시나 카운트(items=3, total_cents=1299)로 요약해 가시성을 유지하세요.

외부 호출은 공급자 이름, 내부 작업 이름, 지연시간, 결과 상태, 재시도 횟수, request_id 같은 상관 식별자를 포함해 로그하세요. 실패 시 인증, 레이트 리밋, 유효성 오류, 타임아웃/네트워크, 공급자 장애 같은 안정적인 분류로 처리하면 대시보드와 알림이 더 유용해집니다.

허용 목록 우선(allowlist-first) 접근을 따르세요: 명시적으로 안전하다고 표시된 필드만 로그하고 그 외는 로깅 경계에서 마스킹하거나 제거합니다. PII는 기본적으로 마스킹하거나 토크나이즈하고 자격증명/비밀값은 완전히 제거하세요. 이렇게 하면 대시보드, 백업, 로그 내보내기로 인한 유출 위험을 줄일 수 있습니다.

스키마와 마스킹 규칙을 하나의 공유된 지점에 두어 모든 엔드포인트와 워크플로에 적용되게 하세요. 이렇게 하면 코드가 재생성되어도 규칙이 흐트러지지 않습니다. AppMaster 기반이면 구현 세부사항보다 안정적인 비즈니스 결과와 이벤트 이름을 로깅하도록 하세요.