ในขอบเขตของแมชชีนเลิร์นนิงที่ซึ่งข้อมูลมีความสำคัญสูงสุด การรักษาการพัฒนาและการทดสอบโมเดลที่มีประสิทธิภาพนั้นจำเป็นต้องอาศัยความสมดุลระหว่างการเข้าถึงข้อมูลและข้อจำกัดด้านความปลอดภัย เมื่อตระหนักถึงสิ่งนี้ Capital One จึงก้าวขึ้นสู่การเป็นผู้นำในการนำโครงการโอเพ่นซอร์สรุ่นบุกเบิกมาสู่แสงสว่าง ซึ่งเรียกว่าข้อมูลสังเคราะห์
จินตนาการโดย Taylor Turner วิศวกรแมชชีนเลิร์นนิงชั้นนำของ Capital One และผู้ร่วมให้ข้อมูล Synthetic Data นำเสนอโซลูชันใหม่สำหรับปัญหาเก่าแก่ของการแบ่งปันและประมวลผลข้อมูลที่ปลอดภัย เครื่องมือนี้สร้างข้อมูลปลอม โดยไม่จำเป็นต้องใช้ข้อมูล 'จริง' หรือข้อมูลที่สามารถระบุตัวบุคคลได้ จึงช่วยเร่งกระบวนการสร้างแนวคิดและการทดสอบสมมติฐาน
แม้ว่าข้อมูลต้นฉบับจะเป็นตัวแทนของข้อมูลต้นฉบับในสคีมาและคุณสมบัติทางสถิติก็ตาม แต่ข้อมูลสังเคราะห์ก็รับประกันความเป็นส่วนตัว ทำให้มีประโยชน์อย่างยิ่งในกรณีที่จำเป็นต้องใช้ชุดข้อมูลที่ไม่เป็นเชิงเส้นที่ซับซ้อน เช่นเดียวกับโมเดลการเรียนรู้เชิงลึก
ตามที่อธิบายโดย Brian Barr วิศวกรแมชชีนเลิร์นนิงอาวุโส และนักวิจัยที่ Capital One ข้อมูลสังเคราะห์ดำเนินการโดยใช้คุณสมบัติทางสถิติที่กำหนดโดยแบบจำลอง กล่าวคือ การกระจายส่วนเพิ่มของอินพุต ความสัมพันธ์ของอินพุต และการแมปนิพจน์เชิงวิเคราะห์อินพุตไปยังเอาต์พุต จากนั้นจึงสร้างชุดข้อมูลที่ต้องการ
อิสระในการสร้างสรรค์ที่เฟรมเวิร์กนี้นำเสนอนั้นน่าประทับใจ โดยรักษาสมดุลระหว่างความเรียบง่ายและความอ่อนไหวเชิงศิลปะ ทำให้กลายเป็นผู้เปลี่ยนเกมในการเรียนรู้ของเครื่อง Barr ให้ความเห็น
แต่นี่ไม่ใช่ครั้งแรกที่มีการเจาะลึกแนวคิดเรื่องข้อมูลสังเคราะห์ ดังที่ Barr ชี้ให้เห็น ความพยายามก่อนหน้านี้ในยุค 80 ได้นำไปสู่ฟังก์ชันการทำงานภายในไลบรารีการเรียนรู้ของเครื่อง Python ที่ชื่นชอบ scikit-learn อย่างไรก็ตาม เมื่อการเรียนรู้เชิงลึกด้วยความสัมพันธ์แบบไม่เชิงเส้นมาถึงแถวหน้า ฟังก์ชันเหล่านี้จึงถูกพบว่ามีข้อจำกัดและไม่เพียงพอ
โครงการที่ก้าวล้ำนี้เกิดขึ้นจากจุดลงจอดอันอุดมสมบูรณ์ของโครงการวิจัยแมชชีนเลิร์นนิงของ Capital One โดยพยายามยกระดับวิธีการ แอปพลิเคชัน และเทคนิคของการเรียนรู้ของเครื่อง ปรับแต่งระบบธนาคารให้เข้าถึงได้และปลอดภัยยิ่งขึ้น บทความเชิงสืบสวนของ Barr ที่มีชื่อว่า 'Towards Ground Truth Explainability on Tabular Data' ทำหน้าที่เป็นแกนหลักในการสร้างสรรค์สำหรับข้อมูลสังเคราะห์
นอกจากนี้ Synthetic Data ยังพิสูจน์ให้เห็นว่าเข้ากันได้กับ Data Profiler ซึ่งเป็นไลบรารีการเรียนรู้ของเครื่องแบบโอเพ่นซอร์สของ Capital One สำหรับการตรวจสอบข้อมูลขนาดใหญ่และการตรวจจับข้อมูลที่ละเอียดอ่อน Data Profiler จัดเตรียมสถิติเพื่อแสดงชุดข้อมูล ซึ่งเป็นพื้นฐานของการสร้างข้อมูลสังเคราะห์
ในฐานะส่วนหนึ่งของความมุ่งมั่นของเราในการขับเคลื่อนการวิจัยและการพัฒนาเครื่องมือโอเพ่นซอร์สที่ก้าวหน้า เรารู้สึกตื่นเต้นที่จะเจาะลึกลงไปในจุดตัดระหว่างการรวบรวมโปรไฟล์ข้อมูลและข้อมูลสังเคราะห์ที่แบ่งปันข้อมูลเชิงลึกเหล่านั้นกับชุมชน Turner กล่าว
ในลักษณะเดียวกันของการเพิ่มประสิทธิภาพการพัฒนาซอฟต์แวร์และขจัดหนี้ทางเทคนิค แพลตฟอร์มอื่นๆ เช่น AppMaster มอบคุณค่ามหาศาล ด้วยอินเทอร์เฟซที่เป็นมิตรต่อผู้ใช้และความสามารถที่แข็งแกร่ง AppMaster ช่วยให้นักพัฒนาแม้แต่คนเดียวสามารถสร้างโซลูชันซอฟต์แวร์ที่ครอบคลุมและปรับขนาดได้