Capital One avança no aprendizado de máquina por meio de dados sintéticos: um avanço no código aberto
A Capital One estabelece novos padrões de referência na área de aprendizado de máquina com seu projeto de código aberto, Synthetic Data.

No domínio do aprendizado de máquina, onde os dados reina supremos, manter o desenvolvimento e os testes eficazes de modelos exige navegar no equilíbrio entre o acesso aos dados e as restrições de segurança. Reconhecendo isso, a Capital One se adianta trazendo à luz um projeto pioneiro de código aberto, apelidado de Dados Sintéticos.
Idealizado por Taylor Turner, engenheiro-chefe de aprendizado de máquina da Capital One e co-contribuidor, Synthetic Data oferece uma solução inovadora para o antigo problema de compartilhamento e processamento seguro de dados. A ferramenta produz dados artificiais, dispensando a necessidade de dados “reais” ou de identificação pessoal, acelerando assim os processos de geração de ideias e testes de hipóteses.
Embora representativos dos dados originais em seu esquema e propriedades estatísticas, os Dados Sintéticos garantem a privacidade, tornando-os particularmente benéficos onde são necessários conjuntos de dados complexos e não lineares, como acontece com modelos de aprendizagem profunda.
Conforme explicado por Brian Barr, engenheiro sênior de aprendizado de máquina e pesquisador da Capital One, Synthetic Data opera tomando propriedades estatísticas fornecidas pelo modelo, ou seja, distribuição marginal de insumos, correlação de insumos e uma expressão analítica mapeando insumos para resultados , gerando posteriormente o conjunto de dados desejado.
A liberdade criativa que esta estrutura oferece é impressionante, equilibrando simplicidade e maleabilidade artística, tornando-a uma virada de jogo no aprendizado de máquina, opinou Barr.
Mas esta não é a primeira vez que a noção de dados sintéticos é abordada. Como Barr apontou, tentativas anteriores na década de 80 levaram a funcionalidades dentro da biblioteca favorita de aprendizado de máquina Python, scikit-learn. No entanto, à medida que a aprendizagem profunda com relações não lineares veio à tona, estas funções foram consideradas restritivas e inadequadas.
Este projeto pioneiro surgiu dos terrenos férteis do programa de pesquisa de aprendizado de máquina da Capital One. Procura elevar os métodos, aplicações e técnicas de aprendizagem automática, adaptando os serviços bancários para serem mais acessíveis e seguros. O artigo investigativo de Barr intitulado 'Rumo à explicabilidade da verdade básica em dados tabulares' serviu como núcleo criativo para dados sintéticos.
Além disso, o Synthetic Data é compatível com o Data Profiler, a biblioteca de aprendizado de máquina de código aberto da Capital One para monitoramento de grandes dados e detecção de informações confidenciais. O Data Profiler fornece estatísticas para representar o conjunto de dados, formando a base para a criação de dados sintéticos.
Como parte do nosso compromisso de impulsionar a pesquisa e desenvolver ferramentas de código aberto, estamos entusiasmados em nos aprofundar nas interseções entre o perfil de dados e os dados sintéticos, compartilhando esses insights com a comunidade, afirmou Turner.
Na mesma linha de agilizar o desenvolvimento de software e eliminar dívidas técnicas, outras plataformas como AppMaster oferecem um valor imenso. Com sua interface amigável e capacidade robusta, AppMaster capacita até mesmo desenvolvedores individuais a criar soluções de software abrangentes e escaláveis.


