2025년 1월 23일·6분 읽기

데모 및 QA용 데이터베이스 시드: PII 유출 없이 현실적이고 재현 가능한 데이터 만들기

데모와 QA용 데이터 시드: 익명화와 시나리오 기반 시드 스크립트를 사용해 현실적이고 재현 가능한 데이터셋을 만들면서 PII를 보호하는 방법.

데모와 QA용 시드 데이터가 중요한 이유

빈 앱은 판단하기 어렵습니다. 데모에서 빈 테이블과 몇 개의 “John Doe” 레코드는 훌륭한 제품조차 미완성처럼 보이게 합니다. 사용자는 워크플로우나 엣지 케이스, 결과를 볼 수 없습니다.

QA도 같은 문제에 부딪힙니다. 의미 없는 데이터로는 테스트가 행복 경로에만 머물고, 실제 고객이 복잡성을 가져오기 전까지 버그가 숨겨집니다.

문제는 “현실적인” 데이터가 종종 프로덕션 복사본에서 시작한다는 점입니다. 바로 여기서 개인 정보가 유출됩니다.

PII(개인 식별 정보)는 사람을 직접 또는 간접적으로 식별할 수 있는 모든 것을 말합니다: 전체 이름, 이메일, 전화번호, 집 주소, 정부 발급 ID, 고객 메모, IP 주소, 정밀 위치 데이터, 심지어 생년월일과 우편번호 같은 고유 조합까지 포함됩니다.

좋은 데모 및 QA 시드 데이터는 세 가지 목표의 균형을 이룹니다:

현실성: 실제 비즈니스가 다루는 것처럼 보입니다(다양한 상태, 타임스탬프, 실패, 예외 포함).
재현성: 모든 환경에서 몇 분 내에 같은 데이터셋을 재생성할 수 있습니다.
안전성: 실제 고객 데이터가 없고, “거의 익명화된” 잔여물이 남지 않습니다.

테스트 데이터를 제품 자산처럼 취급하세요. 소유자, 허용 기준, 릴리스 프로세스 내 위치가 필요합니다. 스키마가 변경되면 시드 데이터도 함께 바뀌어야 합니다. 그렇지 않으면 데모는 깨지고 QA는 신뢰할 수 없게 됩니다.

AppMaster 같은 도구로 앱을 빌드하면 시드 데이터셋은 엔드투엔드 흐름을 입증하는 데도 유용합니다. 인증, 역할, 비즈니스 프로세스, UI 화면이 신뢰할 수 있는 레코드로 실행되면 더 이해하기 쉽습니다. 잘 구성된 시드 데이터는 누구의 프라이버시도 위험에 빠뜨리지 않고 앱을 보여주고 테스트하며 신뢰를 얻는 가장 빠른 방법이 됩니다.

데모와 QA 데이터의 일반적 출처(그리고 왜 잘못되는가)

대부분의 팀이 원하는 것은 실제처럼 느껴지고 빠르게 로드되며 공유하기에 안전한 데이터입니다. 그런데 “현실적”으로 가는 가장 빠른 길이 종종 가장 위험합니다.

일반적 출처로는 프로덕션 복사본(전체 또는 부분), 운영/재무의 오래된 스프레드시트, 서드파티 샘플 데이터셋, 이름/이메일/주소를 무작위로 찍어내는 생성기가 있습니다.

프로덕션 복사본은 실존 인물을 포함하고 있어서 문제가 됩니다. 이메일·전화·주소 같은 명백한 필드를 제거해도 직함+작은 도시+특이 메모 같은 조합이나 생각지 못한 컬럼과 테이블을 통해 신원을 유출할 수 있습니다. 또한 컴플라이언스와 신뢰 문제를 일으킵니다: 영업 통화에서 찍은 한 장의 스크린샷이 보고 가능한 사건이 될 수 있습니다.

숨겨진 PII가 문제의 주범입니다. 그것은 깔끔한 컬럼에 있지 않습니다. 자유 텍스트 필드(메모, "description", 채팅 기록), 첨부파일(PDF, 이미지, 내보낸 리포트), 지원 티켓·내부 코멘트, 데이터베이스에 저장된 감사 로그, 그리고 "추가" JSON 블롭이나 가져온 메타데이터를 주의하세요.

또 다른 문제는 작업에 맞지 않는 데이터셋을 사용하는 것입니다. QA는 엣지 케이스와 깨진 상태가 필요합니다. 영업 데모는 깔끔한 스토리와 해피 패스 레코드가 필요합니다. 온보딩과 지원은 인지 가능한 워크플로우와 레이블이 필요합니다. 교육은 모든 학습자가 같은 단계를 보도록 재현 가능한 연습이 필요합니다.

간단한 예: 고객 지원 데모를 위해 ‘속도 때문에’ 실존하는 Zendesk 내보내기를 사용했습니다. 내보내기에는 메시지 본문, 서명, 붙여넣은 스크린샷이 포함됩니다. 이메일을 마스크하더라도 메시지 텍스트에 전체 이름, 주문 번호, 배송지 주소가 포함될 수 있습니다. 이렇게 해서 “충분히 안전”하다고 생각한 것이 안전하지 않게 됩니다.

아무 것도 생성하기 전에 데이터 규칙을 정하세요

테스트 데이터를 생성하기 전에 몇 가지 간단한 규칙을 적어두세요. 이것은 가장 흔한 실패를 예방합니다: 누군가가 “당장은” 프로덕션을 복사했고 그것이 조용히 퍼지는 경우입니다.

먼저 PII에 대해 강경한 선을 긋습니다. 가장 안전한 기본값은 단순합니다: 데이터셋의 어떤 값도 실제 사람, 고객, 직원의 소유일 수 없습니다. 이는 명백한 필드는 물론 결합하면 신원을 드러낼 수 있는 "거의 PII"도 포함합니다.

실용적인 최소 규칙 집합:

실제 이름, 이메일, 전화번호, ID, 주소, 결제 정보 금지.
실제 티켓, 채팅, 메모, 통화 로그에서 복사한 텍스트 금지.
앱을 소수의 고객이 사용하는 경우 실제 회사 이름 금지.
실제 장치 식별자, IP, 위치 추적 금지.
첨부파일, 이미지, 자유 텍스트 필드에 숨겨진 PII 금지.

다음으로 무엇을 현실적으로 보이게 할지와 단순화할 수 있는지를 결정하세요. 형식(이메일 모양, 전화 길이, 우편번호)은 보통 중요하고, 관계(주문은 고객 필요, 티켓은 담당자 필요)는 훨씬 더 중요합니다. 그러나 많은 세부사항은 흐름이 작동하는 한 단순화할 수 있습니다.

데이터셋 크기 등급을 미리 정의해 논쟁을 멈추게 하세요. 작은 "스모크" 데이터셋은 빠르게 로드되어 핵심 경로를 커버해야 합니다. 일반 QA 셋은 전형적 상태와 역할을 포함해야 합니다. 대형 셋은 성능 점검용이고 매 빌드마다 사용하는 것이 아닙니다.

마지막으로 각 데이터셋에 레이블을 붙여 환경에 나타났을 때 스스로 설명하도록 하세요: 데이터셋 이름과 의도된 용도(데모, QA, 성능), 앱/스키마와 맞춘 버전, 생성 일시, 합성인지 익명화인지 구분 등.

AppMaster 같은 플랫폼을 사용한다면 이 규칙을 시드 프로세스 옆에 두어 모델이 변경될 때 재생성된 앱과 재생성된 데이터가 일치하도록 하세요.

현실감을 유지하는 익명화 기법

목표는 명확합니다: 데이터는 실제처럼 보이고 동작해야 하지만 절대 실제 사람을 지목하면 안 됩니다.

세 용어가 종종 혼용됩니다:

마스킹(masking): 값의 모양을 바꿉니다(대개 표시용).
가명 처리(pseudonymization): 식별자를 일관된 대체값으로 바꿔 테이블 간 연결을 유지합니다.
진정한 익명화(true anonymization): 데이터 결합 시에도 재식별 불가하게 만듭니다.

모양은 유지하고 의미는 바꾸세요

형식 보존 마스킹은 UI와 검증이 정상 작동하도록 같은 "느낌"을 유지합니다. 좋은 가짜 이메일은 여전히 @와 도메인을 갖고, 좋은 가짜 전화번호는 앱의 허용 형식과 일치합니다.

예시:

Email: [email protected] -> [email protected]
Phone: +1 (415) 555-0199 -> +1 (415) 555-7423
Address line: 742 Evergreen Terrace -> 615 Pine Street

이 방식은 xxxxxx 같은 마스킹보다 낫습니다. 정렬, 검색, 오류 처리가 프로덕션과 비슷하게 동작합니다.

관계를 유지하려면 토크나이제이션 사용

토크나이제이션은 테이블 전반에서 일관된 대체값을 얻는 실용적 방법입니다. 한 고객이 Orders, Tickets, Messages에 모두 등장하면 어디서나 같은 가짜 고객이 되어야 합니다.

간단한 접근법은 원래 값마다 토큰을 생성해 매핑 테이블에 저장(또는 결정론적 함수 사용)하는 것입니다. 그렇게 하면 customer_id=123은 항상 같은 가짜 이름·이메일·전화로 매핑되어 조인이 작동합니다.

또한 "우연히 누구도 고유해지지 않도록" 생각하세요. 이름을 제거해도 희귀한 직함+작은 도시+정확한 생일은 한 사람을 가리킬 수 있습니다. 날짜를 반올림하고, 연령을 버킷으로 묶고, 특이한 조합을 피해 유사한 그룹을 만들도록 하세요.

사람들이 잊는 PII 핫스팟(스크럽해야 할 곳)

PII 없는 청구 데모

Stripe 모듈로 PII 없이 청구 흐름을 프로토타이핑하세요.

결제 추가

명백한 필드(이름, 이메일)는 문제의 절반일 뿐입니다. 위험한 항목은 결합했을 때 개인으로 드러나는 곳에 숨어 있습니다.

실용적인 시작은 흔한 PII 필드를 안전한 대체값과 매핑하는 것입니다. 데이터가 여전히 실제 기록처럼 작동하도록 일관된 대체값을 사용하세요.

필드 유형	흔한 예	안전한 대체 아이디어
이름	first_name, last_name, full_name	고정된 목록(seed된 RNG)에서 생성한 이름
이메일	email, contact_email	example+{id}@demo.local
전화	phone, mobile	유효해 보이지만 라우팅 불가능한 패턴(예: 555-01xx)
주소	street, city, zip	지역별 템플릿 주소(실제 도로명 아님)
네트워크 ID	IP, device_id, user_agent	장치 유형별로 미리 정한 값으로 교체

자유 텍스트 필드는 PII가 가장 자주 새는 곳입니다. 지원 티켓, 채팅 메시지, "notes", "description" 필드는 이름, 전화번호, 계정 ID, 심지어 붙여넣은 스크린샷까지 포함할 수 있습니다. 각 필드에 대해 한 가지 방식을 정하고 지키세요: 패턴을 지워라, 짧은 템플릿으로 교체하라, 또는 불만·환불 요청·버그 리포트 톤에 맞는 무해한 문장을 생성하세요.

파일과 이미지는 별도의 처리 과정을 거쳐야 합니다. 업로드된 파일은 플레이스홀더로 교체하고 메타데이터(EXIF 등)는 제거하세요. PDF, 첨부파일, 아바타 이미지도 점검하세요.

마지막으로 재식별 가능성을 경계하세요. 특이한 직함, 정확한 생일, 희귀한 우편번호+연령 조합, 작은 부서의 일회성 레코드는 한 사람을 가리킬 수 있습니다. 값을 일반화(전체 날짜 대신 월/연도로 표시, 더 넓은 직무군 사용)하고 작은 데이터셋에서 유일한 레코드를 만들지 마세요.

시드 데이터를 재현 가능하고 재생성하기 쉽게 만들기

생성한 코드 소유하기

생성한 소스 코드를 소유하여 시드 프로세스를 결정론적으로 유지하세요.

코드 내보내기

시드 데이터가 매번 무작위라면 데모와 QA 실행을 신뢰하기 어렵습니다. 데이터가 바뀌어 버그가 사라지거나, 어제는 잘되던 데모가 오늘은 핵심 레코드가 없어서 깨질 수 있습니다.

시드 데이터를 일회성 스크립트가 아니라 빌드 아티팩트로 취급하세요.

무작위가 아닌 결정론적 생성 사용

고정된 시드와 항상 같은 결과를 만드는 규칙으로 데이터를 생성하세요. 이렇게 하면 ID, 예측 가능한 날짜, 일관된 관계를 얻을 수 있습니다.

실용적 패턴:

데이터셋별(데모, qa-small, qa-large) 고정 시드 하나.
결정론적 생성기(같은 입력 규칙이면 같은 결과).
“지난 7일” 같은 표현이 의미 있게 유지되도록 기준 날짜에 시간 고정.

시드 스크립트를 멱등(idempotent)하게 만들기

멱등이라는 것은 여러 번 실행해도 안전하다는 뜻입니다. QA 환경을 자주 재구성하거나 데모 DB를 리셋할 때 중요합니다.

업서트, 안정된 자연키, 명시적 정리 규칙을 사용하세요. 예를 들어, 알려진 키로 ‘demo’ 테넌트를 삽입한 다음 사용자·티켓·주문을 업서트하세요. 삭제가 필요하다면 범위를 엄격히 지정(오직 데모 테넌트만)해 공유 데이터를 실수로 지우지 않게 하세요.

데이터셋을 앱과 함께 버전 관리하세요. QA가 버그를 보고할 때는 “app v1.8.3 + seed v12”처럼 정확히 재현할 수 있어야 합니다.

실제 워크플로우에 맞춘 시나리오 기반 데이터셋 구성

무작위 행은 만들기 쉽지만 데모에는 잘 맞지 않습니다. 좋은 데이터셋은 스토리를 전합니다: 누가 사용자이고, 무엇을 하려 했는지, 무엇이 잘못될 수 있는지.

스키마와 관계부터 시작하세요. Data Designer 같은 시각적 스키마 도구를 사용한다면 각 엔티티를 순회하며 실제 세계에서 무엇이 먼저 존재하고 무엇이 그것에 의존하는지 물어보세요.

단순한 작업 순서는 현실적 시드를 유지하고 깨진 참조를 방지합니다:

조직 또는 계정을 먼저 생성.
사용자와 역할을 다음에 추가.
핵심 객체(티켓, 주문, 인보이스, 메시지) 생성.
종속 레코드(댓글, 라인아이템, 첨부파일, 이벤트) 연결.
로그와 알림으로 마무리.

그런 다음 시나리오 기반으로 구성하세요. "10,000 주문" 대신 실제 워크플로우에 맞는 완전한 여정 몇 개를 만드세요. 한 고객은 가입 후 업그레이드하고 지원 티켓을 열어 환불을 받습니다. 다른 고객은 온보딩을 완료하지 못합니다. 또 다른 고객은 연체로 차단됩니다.

의도적으로 엣지 케이스를 포함하세요. 선택적 필드 누락, 500자 주소처럼 매우 긴 값, 비정상적으로 큰 수치, 오래된 버전의 데이터를 참조하는 레코드를 섞어 넣으세요.

상태 전환도 중요합니다. 엔티티를 여러 상태에 걸쳐 시드하면 화면과 필터에 보일 것이 생깁니다: New, Active, Suspended, Overdue, Archived.

시나리오와 상태 중심으로 시드 데이터를 만들면 QA는 올바른 경로를 테스트할 수 있고 데모는 프로덕션 데이터를 사용할 필요 없이 실제 결과를 강조할 수 있습니다.

예시: 고객 지원 데모를 위한 현실적 데이터셋

실제 사용자가 없어도 역할 테스트

내장된 인증 모듈을 사용해 실제 같은 역할을 시드하고 권한을 테스트하세요.

인증 추가

간단한 지원 대시보드를 상상해보세요: 에이전트가 로그인해 티켓 큐를 보고 하나를 열어 답장한 뒤 종료합니다. 좋은 시드 세트는 실제 고객 데이터를 가져오지 않고도 그 흐름을 믿을 수 있게 만듭니다.

작은 캐스트로 시작하세요: 고객 25명, 에이전트 6명, 최근 30일 동안의 티켓 약 120개. 목표는 볼륨이 아닙니다. 화요일 오후의 지원 패턴과 맞먹는 다양성입니다.

중요한 것은 정체성이 아니라 패턴입니다. 이름·이메일·전화번호는 합성으로 유지하되 나머지는 프로덕션처럼 동작하게 하세요. 데이터의 "모양"이 스토리를 설득합니다.

포함할 것:

근무 시간대의 피크, 한산한 밤 시간, 일부 오래된 미해결 티켓 등 타임스탬프 패턴.
상태 진행: New -> In Progress -> Waiting on Customer -> Resolved, 현실적인 시간 간격 포함.
할당: 특정 에이전트가 특정 카테고리(청구 vs 기술)를 담당하고, 핸드오프도 몇 건.
대화 스레드: 티켓당 2-6개의 코멘트, 첨부는 가짜 파일명으로 표시.
관련 레코드: 고객 플랜, 마지막 로그인, 맥락을 위한 가벼운 주문/인보이스 테이블.

의도적인 문제도 추가해 테스트 하세요: 회사명이 같아 보이는 두 고객(중복처럼 보임), 결제 실패로 차단된 계정, 잠긴 계정으로 언락 워크플로우를 유도하는 시나리오 등.

이제 같은 데이터셋이 데모 스크립트("차단된 사용자를 보여주고 해결하기")와 QA 테스트 케이스(상태 변경, 권한, 알림 확인)를 모두 지원할 수 있습니다.

빌드를 느리게 하지 않고 데이터셋 크기 조정하기

최고의 데모 데이터는 기능을 증명하는 데 충분히 작은 데이터셋입니다. 리빌드마다 10분이 걸리면 사람들은 재생성을 멈춥니다. 오래된 데이터가 남아있고 실수가 데모에 스며듭니다.

다른 작업에 맞게 두세 가지 크기의 데이터셋을 유지하세요. 같은 스키마와 규칙을 사용하되 볼륨만 바꾸면 됩니다. 이렇게 하면 일상 작업은 빠르고 페이징·리포트 같은 엣지 케이스도 지원할 수 있습니다.

실용적 볼륨 분류:

스모크/UI(빠름): 테넌트 1개, 사용자 5-10명, 핵심 레코드 30-50개(예: 티켓 40개) — 화면 로드와 일반 흐름 확인용.
기능셋(현실적): 테넌트 3-5개, 총 사용자 50-200명, 핵심 레코드 500-5,000개 — 필터, 역할 기반 접근, 기본 리포팅 커버용.
페이징/리포트용: 리스트뷰가 최소 3페이지를 넘기도록 충분한 레코드(일반적으로 리스트당 200-1,000행).
성능셋(분리): 부하 테스트용으로 10x-100x 많은 볼륨, PII 없이 생성하고 데모로 공유하지 않음.

볼륨보다 분포가 중요합니다. 고객 지원 앱의 경우 동일한 상태와 채널에 티켓을 고르게 배치하는 것이 동일한 수의 반복되는 티켓 50,000건을 넣는 것보다 낫습니다.

분포를 결정론적으로 유지하세요. 테넌트별·상태별 고정 카운트를 정하고 무작위가 아닌 규칙으로 생성합니다. 예: 테넌트당 New 20개, Assigned 15개, Waiting 10개, Resolved 5개, 추가로 연체 2개, 에스컬레이션 1개 등. 결정론적 데이터는 테스트 안정성과 데모 예측 가능성을 보장합니다.

시드된 데모 데이터와 관련된 흔한 실수와 함정

워크플로우를 증명하는 시드 데이터

Business Process Editor로 실제 상태 전환과 예외 상황을 테스트하세요.

워크플로우 생성

데모를 빨리 진행하려는 가장 빠른 방법이 가장 위험한 방법이기도 합니다: 프로덕션을 복사하고 빠르게 마스크한 뒤 안전하다고 가정하는 것. 한 필드(예: 메모 컬럼)를 놓치면 이름·이메일·내부 코멘트가 유출될 수 있고, 누군가 스크린샷을 찍을 때까지 눈치채지 못할 수 있습니다.

또 다른 함정은 데이터를 너무 무작위로 만드는 것입니다. 매 새로고침마다 고객이 바뀌고 합계가 달라지면 QA는 실행 간 비교를 할 수 없습니다. 매번 같은 기준선과 소수의 통제된 변형이 필요합니다.

깨진 관계는 흔하고 발견하기 어렵습니다. 외래키를 무시한 시드는 고아 레코드나 불가능한 상태를 만들 수 있습니다. 화면은 괜찮아 보이다가 특정 버튼이 누락된 관련 항목을 불러오려고 할 때 문제가 드러납니다.

나중에 가장 큰 문제를 일으키는 실수들:

시작점으로 프로덕션 클론을 사용하고 마스킹을 검증 없이 신뢰함.
테이블별로 값 생성이 독립적으로 이루어져 관계가 맞지 않음.
각 실행마다 모든 것을 덮어써서 QA의 안정된 기준선을 파괴함.
해피 패스만 시드하고 취소·환불·재시도·이탈·결제 실패 등을 포함하지 않음.
시드 데이터를 일회성 작업으로 취급하고 앱 변경에 따라 업데이트하지 않음.

간단한 예: 지원 데모에 열린 티켓 40개가 있지만 재오픈 사례나 에스컬레이션, 이탈 고객에 속한 티켓이 전혀 없다면 깔끔해 보이지만 “에스컬레이션 후 고객이 취소하면 어떻게 되는가?”라는 질문에 답할 수 없습니다.

데모 환경 공유 전 빠른 체크리스트

데모를 클라우드로 배포

데모가 준비되면 생성된 앱을 클라우드 제공업체나 AppMaster Cloud에 배포하세요.

앱 배포

데모를 잠재 고객에게 보내거나 QA 환경을 다른 팀에 넘기기 전에, 뭔가 빠뜨렸을 것을 전제로 빠르게 점검하세요. 데이터는 현실적으로 느껴지고 프로덕션처럼 동작하면서도 공유해도 안전해야 합니다.

대부분의 문제를 잡는 다섯 가지 빠른 점검

PII 스니프 테스트: 데이터베이스와 내보낸 파일에서 @, 일반적인 전화번호 형태(숫자 10-15자리, + 기호, 괄호), 팀이 테스트에 자주 쓰는 일반적 이름 리스트 같은 표시를 검색하세요. 실제처럼 보이는 레코드가 하나라도 나오면 더 찾는다고 가정하세요.
관계가 실제로 유지되는지: 핵심 화면 몇 개를 열어 필수 링크가 존재하는지 확인하세요(모든 티켓에 고객이 있어야 하고, 모든 주문에 라인아이템이 있어야 하며, 모든 인보이스에 결제 상태가 있어야 함).
시간 범위가 믿을만한지: 날짜가 다양한 기간에 분포하는지 확인하세요(오늘 생성된 것들, 지난달, 작년 등). 모든 항목이 "5분 전 생성"이라면 차트와 활동 피드가 가짜처럼 보입니다.
재현성 및 앵커 레코드: 두 번 재생성해 같은 카운트와 시나리오가 의존하는 앵커 레코드(예: VIP 고객, 연체 인보이스, 우선순위 티켓)가 동일한지 확인하세요.
숨겨진 데이터 출처가 깨끗한지: 로그, 파일 업로드, 이메일/SMS 템플릿, 메시지 히스토리, 첨부파일을 스캔하세요. PII는 오류 트레이스, CSV 가져오기, PDF 인보이스, 메모에 숨어 있습니다.

AppMaster로 데모를 빌드하면 이 과정은 릴리스 루틴에 자연스럽게 들어맞습니다: 앱을 재생성하고, 시드를 다시 채우고, 외부에 공개하기 전에 체크리스트를 실행하세요.

다음 단계: 앱이 진화함에 따라 데모 데이터 안전하게 동기화 상태로 유지하기

안전한 데모 데이터는 일회성 작업이 아닙니다. 앱이 바뀌고 스키마가 이동하면 "임시" 내보내기가 조용히 공유 환경이 됩니다. 목표는 데모와 QA 데이터셋을 필요할 때 재생성할 수 있고 자동으로 검증되며 알려진 버전으로 배포할 수 있게 만드는 것입니다.

오래 지속되는 워크플로우:

보여주거나 테스트할 정확한 시나리오 몇 가지 정의.
그 시나리오에서 시드를 생성(프로덕션 내보내기에서 생성하지 않음).
검사 실행(PII 스캔, 상식 검사, 참조 무결성 검사).
데이터셋 버전 공개(앱 버전과 태그 및 짧은 변경 로그 유지).
정기적으로(또는 릴리스마다) 재생성해 드리프트를 조기에 잡기.

스키마·로직·시드 정렬을 유지하는 것이 팀이 흔히 어려워하는 부분입니다. 데이터 모델이 바뀌면 시드 스크립트가 깨지거나, 더 나쁜 경우 동작은 하지만 반쯤 유효한 데이터를 만들어 버그를 숨기기도 합니다.

AppMaster에서는 Data Designer의 데이터 모델과 Business Process Editor의 워크플로우가 생성되는 앱 옆에 함께 있기 때문에 이 조각들을 함께 유지하기가 더 쉬운 편입니다. 요구사항이 바뀌면 애플리케이션을 재생성하여 코드를 깨끗하게 유지하고, 동일한 비즈니스 규칙에 따라 시드 흐름을 함께 업데이트할 수 있습니다.

성장하면서 안전하게 유지하려면 데이터셋을 공유하기 전에 통과해야 할 몇 가지 필수 검사를 추가하세요: 실제 이메일·전화 번호 금지, 프로덕션에서 복사한 자유 텍스트 필드 금지, 다른 시스템을 통해 실제 사람과 매핑될 수 있는 ID 금지 등.

하나의 시나리오(예: "새 고객이 티켓을 만들고 지원이 해결한다")를 선택해 PII-안전한 작은 시드 데이터셋을 만들고, 두 번 재생성해 재현성을 확인한 다음 앱이 진화함에 따라 시나리오별로 확장하세요.

자주 묻는 질문

시드 데이터는 앱을 완성된 것처럼 보이게 하고 테스트 가능하게 만듭니다. 빈 화면이나 몇 개의 자리표시자 레코드 대신 실제 워크플로우, 상태, 예외를 보여줄 수 있습니다.

기본적으로 프로덕션에서 시작하지 마세요. 스키마와 워크플로우에 맞는 합성 데이터를 사용하고, 상태 분포(상태, 타임스탬프, 실패 등)를 더해 프로덕션처럼 동작하게 하되 누구의 정보도 노출하지 마세요.

PII는 사람을 직접 또는 간접적으로 식별할 수 있는 모든 것을 포함합니다: 이름, 이메일, 전화번호, 주소, ID, IP 주소, 정확한 위치 데이터, 그리고 생년월일+우편번호 같은 고유 조합까지. 자유 형식 텍스트와 첨부파일이 특히 자주 누락됩니다.

무엇이든 생성하기 전에 간단하고 비타협적인 규칙을 정하세요. 좋은 기준은 ‘데이터셋의 어떤 값도 실제 사람에 속하지 않는다’는 것과, 실제 시스템에서 복사한 노트·티켓·채팅·업로드 파일은 금지하는 것입니다.

표현만 필요하면 형식 보존 마스킹을 사용하고, 테이블 간 관계를 유지해야 하면 토크나이제이션이나 일관된 가명(pseudonym)을 사용하세요. 실수로 추적 가능한 고유 패턴을 만들지 않도록 주의하세요.

노트·설명·채팅 등은 안전한 템플릿 집합에서 생성하고, 파일은 플레이스홀더 파일명으로 교체하며 메타데이터(EXIF 등)를 제거하세요. 이렇게 하면 업로드된 파일에서 위치나 타임스탬프가 유출되는 것을 막습니다.

고정된 시드와 규칙을 사용해 생성 과정을 결정론적으로 만드세요. 시간은 기준 날짜에 고정해 “지난 7일” 같은 표현이 일관되게 유지되도록 하며, 데이터셋 버전은 앱/스키마 버전과 함께 관리하세요.

시드 프로세스를 여러 번 실행해도 안전하도록 설계하세요. 업서트(upsert)와 안정적인 자연키를 사용하고, 삭제가 필요하다면 범위를 엄격히 한정(예: 데모 테넌트만)해 공유 데이터를 지우지 않게 하세요.

무작위 행이 아니라 완전한 여정(journey)을 몇 개 만들어 보세요. 사용자·역할·핵심 객체·종속 레코드를 현실적인 순서로 생성하고, 여러 상태와 의도적인 엣지 케이스를 포함해 화면과 전환을 테스트할 수 있게 하세요.

빠른 재생성을 위한 작은 스모크 데이터셋, 일상 QA를 위한 현실적 기능셋, 페이징·성능 테스트용 대형셋을 구분하세요. 볼륨보다 다양성이 중요합니다(다양한 상태와 채널을 포함하세요).