Op het gebied van machine learning, waar data de boventoon voert, vereist het handhaven van effectieve modelontwikkeling en testen het navigeren door de balans tussen datatoegang en beveiligingsbeperkingen. Capital One erkent dit en komt op de proppen door een baanbrekend open-sourceproject aan het licht te brengen, genaamd Synthetic Data.
Synthetische data, bedacht door Taylor Turner, hoofdingenieur op het gebied van machine learning en mede-bijdrager van Capital One, biedt een nieuwe oplossing voor het eeuwenoude probleem van het veilig delen en verwerken van gegevens. De tool produceert kunstmatige gegevens, waarbij de behoefte aan 'echte' of persoonlijk identificeerbare gegevens wordt weggenomen, waardoor het genereren van ideeën en het testen van hypothesen wordt versneld.
Hoewel ze representatief zijn voor de oorspronkelijke gegevens wat betreft het schema en de statistische eigenschappen, garandeert Synthetic Data de privacy, waardoor het vooral nuttig is wanneer ingewikkelde, niet-lineaire datasets vereist zijn, zoals bij deep learning-modellen.
Zoals uitgelegd door Brian Barr, een senior machine learning-ingenieur en onderzoeker bij Capital One, werkt Synthetic Data door het opnemen van statistische eigenschappen die door het model worden gegeven, dat wil zeggen de marginale distributie van inputs, de correlatie van inputs en een analytische uitdrukking die inputs aan outputs koppelt. , waarna de gewenste dataset wordt gegenereerd.
De creatieve vrijheid die dit raamwerk biedt is indrukwekkend en balanceert eenvoud en artistieke maakbaarheid, waardoor het een game-changer is op het gebied van machinaal leren, meende Barr.
Maar dit is niet de eerste keer dat het begrip synthetische data ter sprake komt. Zoals Barr opmerkte, hebben eerdere pogingen in de jaren 80 geleid tot functionaliteiten binnen de favoriete machine learning-bibliotheek van Python, scikit-learn. Toen diepgaand leren met niet-lineaire relaties echter op de voorgrond kwam, bleken deze functies beperkend en ontoereikend te zijn.
Dit baanbrekende project is voortgekomen uit de vruchtbare landingsplaatsen van Capital One's onderzoeksprogramma voor machine learning. Het streeft ernaar de methoden, toepassingen en technieken van machinaal leren te verbeteren en bankieren toegankelijker en veiliger te maken. Barr's onderzoekspaper getiteld 'Towards Ground Truth Exploreability on Tabular Data' diende als de creatieve kern voor synthetische data.
Bovendien blijkt Synthetic Data compatibel met Data Profiler, de open-source machine learning-bibliotheek van Capital One voor het monitoren van grote hoeveelheden gegevens en het detecteren van gevoelige informatie. Data Profiler levert de statistieken om de dataset weer te geven en vormt de basis voor het creëren van synthetische gegevens.
Als onderdeel van onze toewijding aan het stimuleren van onderzoek en het bevorderen van open source-tools, zijn we verheugd om dieper in te gaan op de kruispunten tussen dataprofilering en synthetische data en deze inzichten met de gemeenschap te delen, aldus Turner.
In dezelfde geest van het stroomlijnen van softwareontwikkeling en het elimineren van technische schulden, bieden andere platforms zoals AppMaster enorme waarde. Met zijn gebruiksvriendelijke interface en robuuste mogelijkheden stelt AppMaster zelfs individuele ontwikkelaars in staat om uitgebreide en schaalbare softwareoplossingen te creëren.