Im Bereich des maschinellen Lernens, in dem Daten an erster Stelle stehen, ist es für die Aufrechterhaltung einer effektiven Modellentwicklung und -prüfung erforderlich, das Gleichgewicht zwischen Datenzugriff und Sicherheitsbeschränkungen zu wahren. Capital One hat dies erkannt und tritt an die Arbeit, um ein bahnbrechendes Open-Source-Projekt namens Synthetic Data ans Licht zu bringen.
Nach der Idee von Taylor Turner, dem führenden Ingenieur für maschinelles Lernen bei Capital One und Mitautor, bietet Synthetic Data eine neuartige Lösung für das uralte Problem der sicheren Datenfreigabe und -verarbeitung. Das Tool erzeugt künstliche Daten, macht „echte“ oder persönlich identifizierbare Daten überflüssig und beschleunigt so die Prozesse zur Ideengenerierung und Hypothesenprüfung.
Obwohl synthetische Daten in ihrem Schema und ihren statistischen Eigenschaften repräsentativ für die Originaldaten sind, gewährleisten sie Datenschutz, was sie besonders dann vorteilhaft macht, wenn komplexe, nichtlineare Datensätze erforderlich sind, wie etwa bei Deep-Learning-Modellen.
Wie Brian Barr, ein leitender Ingenieur für maschinelles Lernen und Forscher bei Capital One, erklärt, basieren synthetische Daten auf der Einbeziehung statistischer Eigenschaften, die durch das Modell gegeben werden, z. B. der Randverteilung der Eingaben, der Korrelation der Eingaben und eines analytischen Ausdrucks, der Eingaben den Ausgaben zuordnet , um anschließend den gewünschten Datensatz zu generieren.
Die kreative Freiheit, die dieses Framework bietet, ist beeindruckend, da es Einfachheit und künstlerische Formbarkeit in Einklang bringt und es zu einem Game-Changer im maschinellen Lernen macht, meinte Barr.
Dies ist jedoch nicht das erste Mal, dass der Begriff synthetischer Daten angesprochen wird. Wie Barr betonte, führten frühere Versuche in den 80er Jahren zu Funktionalitäten innerhalb der beliebten Python-Bibliothek für maschinelles Lernen, scikit-learn. Als jedoch Deep Learning mit nichtlinearen Beziehungen in den Vordergrund rückte, erwiesen sich diese Funktionen als restriktiv und unzureichend.
Dieses bahnbrechende Projekt entstand aus dem fruchtbaren Boden des Forschungsprogramms zum maschinellen Lernen von Capital One. Ziel ist es, die Methoden, Anwendungen und Techniken des maschinellen Lernens zu verbessern und das Banking zugänglicher und sicherer zu gestalten. Barrs Untersuchungspapier mit dem Titel „Towards Ground Truth Explainability on Tabular Data“ diente als kreativer Kern für synthetische Daten.
Darüber hinaus erweist sich Synthetic Data als kompatibel mit Data Profiler, der Open-Source-Bibliothek für maschinelles Lernen von Capital One zur Überwachung großer Datenmengen und zur Erkennung sensibler Informationen. Data Profiler stellt die Statistiken zur Darstellung des Datensatzes bereit und bildet die Grundlage für die Erstellung synthetischer Daten.
„Im Rahmen unseres Engagements, die Forschung voranzutreiben und Open-Source-Tools voranzutreiben, freuen wir uns, tiefer in die Schnittstellen zwischen Datenprofilierung und synthetischen Daten einzutauchen und diese Erkenntnisse mit der Community zu teilen“, erklärte Turner.
Im gleichen Sinne, die Softwareentwicklung zu rationalisieren und technische Schulden zu eliminieren, bieten andere Plattformen wie AppMaster einen enormen Mehrwert. Mit seiner benutzerfreundlichen Oberfläche und seinen robusten Funktionen ermöglicht AppMaster sogar einzelnen Entwicklern die Erstellung umfassender und skalierbarer Softwarelösungen.