데이터가 가장 중요한 기계 학습 영역에서 효과적인 모델 개발 및 테스트를 유지하려면 데이터 액세스와 보안 제한 간의 균형을 찾아야 합니다. 이를 인식한 Capital One은 합성 데이터(Synthetic Data)라고 불리는 선구적인 오픈 소스 프로젝트를 조명하는 데 나섰습니다.
Capital One의 수석 기계 학습 엔지니어이자 공동 기여자인 Taylor Turner가 구상한 Synthetic Data는 안전한 데이터 공유 및 처리라는 오래된 문제에 대한 새로운 솔루션을 제공합니다. 이 도구는 인공 데이터를 생성하여 '실제' 또는 개인 식별 데이터의 필요성을 무시함으로써 아이디어 생성 및 가설 테스트 프로세스를 가속화합니다.
스키마 및 통계 속성에서 원본 데이터를 대표하는 합성 데이터는 개인 정보 보호를 보장하므로 딥 러닝 모델과 같이 복잡하고 비선형 데이터 세트가 필요한 경우 특히 유용합니다.
수석 기계 학습 엔지니어이자 Capital One의 연구원인 Brian Barr가 설명했듯이 합성 데이터는 모델이 제공하는 통계적 속성, 즉 입력의 한계 분포, 입력의 상관 관계 및 입력을 출력에 매핑하는 분석 표현을 사용하여 작동합니다. , 이후에 원하는 데이터 세트를 생성합니다.
Barr는 이 프레임워크가 제공하는 창의적인 자유가 인상적이며 단순성과 예술적인 유연성의 균형을 유지하여 기계 학습의 판도를 바꿀 것이라고 말했습니다.
그러나 합성 데이터라는 개념이 언급된 것은 이번이 처음은 아니다. Barr가 지적했듯이, 80년대의 이전 시도는 인기 있는 Python 기계 학습 라이브러리인 scikit-learn 내 기능으로 이어졌습니다. 그러나 비선형 관계를 갖는 딥러닝이 대두되면서 이러한 기능은 제한적이고 부적절하다는 사실이 밝혀졌습니다.
이 선구적인 프로젝트는 Capital One의 기계 학습 연구 프로그램의 비옥한 기반에서 시작되었습니다. 이는 기계 학습의 방법, 응용 프로그램 및 기술을 향상시켜 은행 업무를 보다 접근 가능하고 안전하게 맞춤화하는 것을 목표로 합니다. Barr의 '표 형식 데이터에 대한 지상 진실 설명 가능성을 향하여'라는 제목의 조사 논문은 합성 데이터의 창의적인 핵심 역할을 했습니다.
또한 합성 데이터는 대규모 데이터 모니터링 및 민감한 정보 감지를 위한 Capital One의 오픈 소스 기계 학습 라이브러리인 Data Profiler와 호환되는 것으로 입증되었습니다. 데이터 프로파일러는 데이터 세트를 나타내는 통계를 제공하여 합성 데이터 생성의 기초를 형성합니다.
Turner는 연구를 추진하고 오픈 소스 도구를 발전시키려는 노력의 일환으로 데이터 프로파일링과 합성 데이터 간의 교차점을 더 깊이 조사하여 이러한 통찰력을 커뮤니티와 공유하게 되어 기쁘게 생각한다고 말했습니다.
소프트웨어 개발을 간소화하고 기술 부채를 없애는 것과 같은 맥락에서 AppMaster 와 같은 다른 플랫폼은 엄청난 가치를 제공합니다. 사용자 친화적인 인터페이스와 강력한 기능을 갖춘 AppMaster 단일 개발자라도 포괄적이고 확장 가능한 소프트웨어 솔루션을 만들 수 있도록 지원합니다.