27 lis 2023·1 min czytania

Capital One rozwija uczenie maszynowe poprzez dane syntetyczne: przełom w dziedzinie oprogramowania typu open source

Capital One wyznacza nowe standardy na arenie uczenia maszynowego dzięki projektowi open source o nazwie Synthetic Data.

Capital One rozwija uczenie maszynowe poprzez dane syntetyczne: przełom w dziedzinie oprogramowania typu open source

W dziedzinie uczenia maszynowego, gdzie królują dane, utrzymanie skutecznego opracowywania i testowania modeli wymaga znalezienia równowagi między dostępem do danych a ograniczeniami bezpieczeństwa. Widząc to, Capital One wkracza do akcji, wyciągając na światło dzienne pionierski projekt open source, nazwany Synthetic Data.

Zaprojektowane przez Taylora Turnera, głównego inżyniera uczenia maszynowego w Capital One i współautora, Synthetic Data oferuje nowatorskie rozwiązanie odwiecznego problemu bezpiecznego udostępniania i przetwarzania danych. Narzędzie generuje sztuczne dane, eliminując potrzebę stosowania danych „prawdziwych” lub umożliwiających identyfikację, przyspieszając w ten sposób procesy generowania pomysłów i testowania hipotez.

Dane syntetyczne są reprezentatywne dla oryginalnych danych pod względem schematu i właściwości statystycznych, ale gwarantują prywatność, co czyni je szczególnie korzystnymi tam, gdzie wymagane są skomplikowane, nieliniowe zbiory danych, np. w przypadku modeli głębokiego uczenia się.

Jak wyjaśnił Brian Barr, starszy inżynier uczenia maszynowego i badacz w Capital One, Synthetic Data działa w oparciu o właściwości statystyczne dane przez model, tj. rozkład krańcowy danych wejściowych, korelację danych wejściowych oraz wyrażenie analityczne odwzorowujące dane wejściowe na wyniki , następnie generując żądany zbiór danych.

Swoboda twórcza, jaką oferuje ta platforma, jest imponująca, równoważąc prostotę i plastyczność artystyczną, co czyni ją rewolucyjną w uczeniu maszynowym, stwierdził Barr.

Nie jest to jednak pierwszy przypadek poruszenia pojęcia danych syntetycznych. Jak zauważył Barr, poprzednie próby z lat 80. doprowadziły do ​​powstania funkcjonalności w ulubionej bibliotece uczenia maszynowego Pythona, scikit-learn. Jednak w miarę jak na pierwszy plan wysunęły się głębokie uczenie się z relacjami nieliniowymi, funkcje te okazały się restrykcyjne i nieodpowiednie.

Ten pionierski projekt wyrósł z podatnych gruntów programu badawczego Capital One dotyczącego uczenia maszynowego. Ma na celu udoskonalenie metod, zastosowań i technik uczenia maszynowego, dostosowując bankowość tak, aby była bardziej dostępna i bezpieczna. Artykuł śledczy Barra zatytułowany „W stronę wyjaśnialności prawdy podstawowej na danych tabelarycznych” stał się twórczym zalążkiem danych syntetycznych.

Co więcej, Synthetic Data jest kompatybilny z Data Profiler, biblioteką uczenia maszynowego typu open source firmy Capital One do monitorowania dużych danych i wykrywania wrażliwych informacji. Data Profiler udostępnia statystyki reprezentujące zbiór danych, stanowiące podstawę do tworzenia danych syntetycznych.

W ramach naszego zaangażowania w prowadzenie badań i udoskonalanie narzędzi open source z radością zagłębiamy się w powiązania między profilowaniem danych a danymi syntetycznymi, dzieląc się swoimi spostrzeżeniami ze społecznością, stwierdził Turner.

W tym samym duchu usprawniania tworzenia oprogramowania i eliminowania długu technicznego inne platformy, takie jak AppMaster, oferują ogromną wartość. Dzięki przyjaznemu dla użytkownika interfejsowi i solidnym możliwościom AppMaster umożliwia nawet pojedynczym programistom tworzenie kompleksowych i skalowalnych rozwiązań programowych.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started
Capital One rozwija uczenie maszynowe poprzez dane syntetyczne: przełom w dziedzinie oprogramowania typu open source | AppMaster