Capital One продвигает машинное обучение с помощью синтетических данных: прорыв в области открытого исходного кода
Capital One устанавливает новые стандарты в области машинного обучения благодаря своему проекту с открытым исходным кодом Synthetic Data.

В сфере машинного обучения, где господствуют данные, поддержание эффективной разработки и тестирования моделей требует поиска баланса между доступом к данным и ограничениями безопасности. Понимая это, Capital One выходит на первый план, представляя новаторский проект с открытым исходным кодом, получивший название Synthetic Data.
Synthetic Data, задуманная Тейлором Тернером, ведущим инженером по машинному обучению Capital One и соавтором, предлагает новое решение извечной проблемы безопасного обмена и обработки данных. Инструмент создает искусственные данные, устраняя необходимость в «реальных» или лично идентифицируемых данных, тем самым ускоряя процессы генерации идей и проверки гипотез.
Синтетические данные, отражающие исходные данные по своей схеме и статистическим свойствам, гарантируют конфиденциальность, что делает их особенно полезными там, где требуются сложные нелинейные наборы данных, например, в моделях глубокого обучения.
Как объяснил Брайан Барр, старший инженер по машинному обучению и исследователь Capital One, синтетические данные работают, принимая статистические свойства, заданные моделью, то есть предельное распределение входных данных, корреляцию входных данных и аналитическое выражение, сопоставляющее входные данные с выходными данными. , впоследствии генерируя желаемый набор данных.
По мнению Барра, творческая свобода, которую предлагает этот фреймворк, впечатляет: он сочетает в себе простоту и художественную гибкость, что делает его революционным в машинном обучении.
Но это не первый раз, когда обсуждается понятие синтетических данных. Как отметил Барр, предыдущие попытки в 80-х годах привели к появлению функциональных возможностей в популярной библиотеке машинного обучения Python — scikit-learn. Однако когда на первый план вышло глубокое обучение с нелинейными связями, эти функции оказались ограничительными и неадекватными.
Этот новаторский проект возник на плодородной почве исследовательской программы машинного обучения Capital One. Он стремится усовершенствовать методы, приложения и методы машинного обучения, делая банковские операции более доступными и безопасными. Расследовательская статья Барра под названием «На пути к объяснению истинной истины в отношении табличных данных» послужила творческим ядром для «Синтетических данных».
Кроме того, Synthetic Data совместима с Data Profiler, библиотекой машинного обучения с открытым исходным кодом Capital One для мониторинга больших данных и обнаружения конфиденциальной информации. Data Profiler предоставляет статистику для представления набора данных, формируя основу для создания синтетических данных.
«В рамках нашего стремления стимулировать исследования и продвигать инструменты с открытым исходным кодом мы рады глубже изучить взаимосвязь между профилированием данных и синтетическими данными, делясь этими знаниями с сообществом», — заявил Тернер.
Другие платформы, такие как AppMaster, предлагают огромную ценность для оптимизации разработки программного обеспечения и устранения технического долга. Благодаря удобному интерфейсу и надежным возможностям AppMaster позволяет даже разработчикам-одиночкам создавать комплексные и масштабируемые программные решения.


