W dziedzinie uczenia maszynowego, gdzie królują dane, utrzymanie skutecznego opracowywania i testowania modeli wymaga znalezienia równowagi między dostępem do danych a ograniczeniami bezpieczeństwa. Widząc to, Capital One wkracza do akcji, wyciągając na światło dzienne pionierski projekt open source, nazwany Synthetic Data.
Zaprojektowane przez Taylora Turnera, głównego inżyniera uczenia maszynowego w Capital One i współautora, Synthetic Data oferuje nowatorskie rozwiązanie odwiecznego problemu bezpiecznego udostępniania i przetwarzania danych. Narzędzie generuje sztuczne dane, eliminując potrzebę stosowania danych „prawdziwych” lub umożliwiających identyfikację, przyspieszając w ten sposób procesy generowania pomysłów i testowania hipotez.
Dane syntetyczne są reprezentatywne dla oryginalnych danych pod względem schematu i właściwości statystycznych, ale gwarantują prywatność, co czyni je szczególnie korzystnymi tam, gdzie wymagane są skomplikowane, nieliniowe zbiory danych, np. w przypadku modeli głębokiego uczenia się.
Jak wyjaśnił Brian Barr, starszy inżynier uczenia maszynowego i badacz w Capital One, Synthetic Data działa w oparciu o właściwości statystyczne dane przez model, tj. rozkład krańcowy danych wejściowych, korelację danych wejściowych oraz wyrażenie analityczne odwzorowujące dane wejściowe na wyniki , następnie generując żądany zbiór danych.
Swoboda twórcza, jaką oferuje ta platforma, jest imponująca, równoważąc prostotę i plastyczność artystyczną, co czyni ją rewolucyjną w uczeniu maszynowym, stwierdził Barr.
Nie jest to jednak pierwszy przypadek poruszenia pojęcia danych syntetycznych. Jak zauważył Barr, poprzednie próby z lat 80. doprowadziły do powstania funkcjonalności w ulubionej bibliotece uczenia maszynowego Pythona, scikit-learn. Jednak w miarę jak na pierwszy plan wysunęły się głębokie uczenie się z relacjami nieliniowymi, funkcje te okazały się restrykcyjne i nieodpowiednie.
Ten pionierski projekt wyrósł z podatnych gruntów programu badawczego Capital One dotyczącego uczenia maszynowego. Ma na celu udoskonalenie metod, zastosowań i technik uczenia maszynowego, dostosowując bankowość tak, aby była bardziej dostępna i bezpieczna. Artykuł śledczy Barra zatytułowany „W stronę wyjaśnialności prawdy podstawowej na danych tabelarycznych” stał się twórczym zalążkiem danych syntetycznych.
Co więcej, Synthetic Data jest kompatybilny z Data Profiler, biblioteką uczenia maszynowego typu open source firmy Capital One do monitorowania dużych danych i wykrywania wrażliwych informacji. Data Profiler udostępnia statystyki reprezentujące zbiór danych, stanowiące podstawę do tworzenia danych syntetycznych.
W ramach naszego zaangażowania w prowadzenie badań i udoskonalanie narzędzi open source z radością zagłębiamy się w powiązania między profilowaniem danych a danymi syntetycznymi, dzieląc się swoimi spostrzeżeniami ze społecznością, stwierdził Turner.
W tym samym duchu usprawniania tworzenia oprogramowania i eliminowania długu technicznego inne platformy, takie jak AppMaster, oferują ogromną wartość. Dzięki przyjaznemu dla użytkownika interfejsowi i solidnym możliwościom AppMaster umożliwia nawet pojedynczym programistom tworzenie kompleksowych i skalowalnych rozwiązań programowych.