27 lis 2023·1 min czytania

Capital One rozwija uczenie maszynowe poprzez dane syntetyczne: przełom w dziedzinie oprogramowania typu open source

Capital One wyznacza nowe standardy na arenie uczenia maszynowego dzięki projektowi open source o nazwie Synthetic Data.

W dziedzinie uczenia maszynowego, gdzie królują dane, utrzymanie skutecznego opracowywania i testowania modeli wymaga znalezienia równowagi między dostępem do danych a ograniczeniami bezpieczeństwa. Widząc to, Capital One wkracza do akcji, wyciągając na światło dzienne pionierski projekt open source, nazwany Synthetic Data.

Zaprojektowane przez Taylora Turnera, głównego inżyniera uczenia maszynowego w Capital One i współautora, Synthetic Data oferuje nowatorskie rozwiązanie odwiecznego problemu bezpiecznego udostępniania i przetwarzania danych. Narzędzie generuje sztuczne dane, eliminując potrzebę stosowania danych „prawdziwych” lub umożliwiających identyfikację, przyspieszając w ten sposób procesy generowania pomysłów i testowania hipotez.

Dane syntetyczne są reprezentatywne dla oryginalnych danych pod względem schematu i właściwości statystycznych, ale gwarantują prywatność, co czyni je szczególnie korzystnymi tam, gdzie wymagane są skomplikowane, nieliniowe zbiory danych, np. w przypadku modeli głębokiego uczenia się.

Jak wyjaśnił Brian Barr, starszy inżynier uczenia maszynowego i badacz w Capital One, Synthetic Data działa w oparciu o właściwości statystyczne dane przez model, tj. rozkład krańcowy danych wejściowych, korelację danych wejściowych oraz wyrażenie analityczne odwzorowujące dane wejściowe na wyniki , następnie generując żądany zbiór danych.

Swoboda twórcza, jaką oferuje ta platforma, jest imponująca, równoważąc prostotę i plastyczność artystyczną, co czyni ją rewolucyjną w uczeniu maszynowym, stwierdził Barr.

Nie jest to jednak pierwszy przypadek poruszenia pojęcia danych syntetycznych. Jak zauważył Barr, poprzednie próby z lat 80. doprowadziły do powstania funkcjonalności w ulubionej bibliotece uczenia maszynowego Pythona, scikit-learn. Jednak w miarę jak na pierwszy plan wysunęły się głębokie uczenie się z relacjami nieliniowymi, funkcje te okazały się restrykcyjne i nieodpowiednie.

Ten pionierski projekt wyrósł z podatnych gruntów programu badawczego Capital One dotyczącego uczenia maszynowego. Ma na celu udoskonalenie metod, zastosowań i technik uczenia maszynowego, dostosowując bankowość tak, aby była bardziej dostępna i bezpieczna. Artykuł śledczy Barra zatytułowany „W stronę wyjaśnialności prawdy podstawowej na danych tabelarycznych” stał się twórczym zalążkiem danych syntetycznych.

Co więcej, Synthetic Data jest kompatybilny z Data Profiler, biblioteką uczenia maszynowego typu open source firmy Capital One do monitorowania dużych danych i wykrywania wrażliwych informacji. Data Profiler udostępnia statystyki reprezentujące zbiór danych, stanowiące podstawę do tworzenia danych syntetycznych.

W ramach naszego zaangażowania w prowadzenie badań i udoskonalanie narzędzi open source z radością zagłębiamy się w powiązania między profilowaniem danych a danymi syntetycznymi, dzieląc się swoimi spostrzeżeniami ze społecznością, stwierdził Turner.

W tym samym duchu usprawniania tworzenia oprogramowania i eliminowania długu technicznego inne platformy, takie jak AppMaster, oferują ogromną wartość. Dzięki przyjaznemu dla użytkownika interfejsowi i solidnym możliwościom AppMaster umożliwia nawet pojedynczym programistom tworzenie kompleksowych i skalowalnych rozwiązań programowych.

Easy to start

Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started

Powiązane wiadomości