Nel regno dell’apprendimento automatico, dove i dati regnano sovrani, per mantenere uno sviluppo e un test efficaci dei modelli è necessario trovare un equilibrio tra accesso ai dati e restrizioni di sicurezza. Riconoscendo ciò, Capital One si fa avanti portando alla luce un progetto open source pionieristico, soprannominato Synthetic Data.
Ideato da Taylor Turner, ingegnere capo dell'apprendimento automatico di Capital One e co-collaboratore, Synthetic Data offre una nuova soluzione all'annoso problema della condivisione e dell'elaborazione sicura dei dati. Lo strumento produce dati artificiali, eliminando la necessità di dati "reali" o identificabili personalmente, accelerando così i processi di generazione delle idee e di verifica delle ipotesi.
Pur essendo rappresentativi dei dati originali nel loro schema e nelle proprietà statistiche, i dati sintetici garantiscono la privacy, rendendoli particolarmente utili laddove sono richiesti set di dati complessi e non lineari, come con i modelli di deep learning.
Come spiegato da Brian Barr, ingegnere senior di machine learning e ricercatore presso Capital One, i dati sintetici funzionano prendendo in considerazione le proprietà statistiche fornite dal modello, ovvero la distribuzione marginale degli input, la correlazione degli input e un'espressione analitica che mappa gli input sugli output , generando successivamente il set di dati desiderato.
La libertà creativa offerta da questo framework è impressionante, poiché bilancia semplicità e malleabilità artistica, rendendolo un punto di svolta nell'apprendimento automatico, ha affermato Barr.
Ma questa non è la prima volta che viene affrontata la nozione di dati sintetici. Come ha sottolineato Barr, precedenti tentativi negli anni ’80 hanno portato a funzionalità all’interno della libreria di apprendimento automatico Python preferita, scikit-learn. Tuttavia, con l’avvento del deep learning con relazioni non lineari, queste funzioni si sono rivelate restrittive e inadeguate.
Questo progetto pionieristico è nato dal fertile terreno del programma di ricerca sull'apprendimento automatico di Capital One. Mira a migliorare i metodi, le applicazioni e le tecniche dell’apprendimento automatico, personalizzando il settore bancario in modo che sia più accessibile e sicuro. Il documento investigativo di Barr intitolato "Towards Ground Truth Explainability on Tabular Data" è servito come nucleo creativo per i dati sintetici.
Inoltre, Synthetic Data si dimostra compatibile con Data Profiler, la libreria di machine learning open source di Capital One per il monitoraggio di grandi quantità di dati e il rilevamento di informazioni sensibili. Data Profiler fornisce le statistiche per rappresentare il set di dati, costituendo la base per la creazione di dati sintetici.
Nell’ambito del nostro impegno nel promuovere la ricerca e nel far progredire gli strumenti open source, siamo entusiasti di approfondire le intersezioni tra la profilazione dei dati e i dati sintetici condividendo tali informazioni con la comunità, ha affermato Turner.
Allo stesso modo di semplificare lo sviluppo del software ed eliminare il debito tecnico, altre piattaforme come AppMaster offrono un valore immenso. Con la sua interfaccia intuitiva e le sue robuste funzionalità, AppMaster consente anche ai singoli sviluppatori di creare soluzioni software complete e scalabili.