No domínio do aprendizado de máquina, onde os dados reina supremos, manter o desenvolvimento e os testes eficazes de modelos exige navegar no equilíbrio entre o acesso aos dados e as restrições de segurança. Reconhecendo isso, a Capital One se adianta trazendo à luz um projeto pioneiro de código aberto, apelidado de Dados Sintéticos.
Idealizado por Taylor Turner, engenheiro-chefe de aprendizado de máquina da Capital One e co-contribuidor, Synthetic Data oferece uma solução inovadora para o antigo problema de compartilhamento e processamento seguro de dados. A ferramenta produz dados artificiais, dispensando a necessidade de dados “reais” ou de identificação pessoal, acelerando assim os processos de geração de ideias e testes de hipóteses.
Embora representativos dos dados originais em seu esquema e propriedades estatísticas, os Dados Sintéticos garantem a privacidade, tornando-os particularmente benéficos onde são necessários conjuntos de dados complexos e não lineares, como acontece com modelos de aprendizagem profunda.
Conforme explicado por Brian Barr, engenheiro sênior de aprendizado de máquina e pesquisador da Capital One, Synthetic Data opera tomando propriedades estatísticas fornecidas pelo modelo, ou seja, distribuição marginal de insumos, correlação de insumos e uma expressão analítica mapeando insumos para resultados , gerando posteriormente o conjunto de dados desejado.
A liberdade criativa que esta estrutura oferece é impressionante, equilibrando simplicidade e maleabilidade artística, tornando-a uma virada de jogo no aprendizado de máquina, opinou Barr.
Mas esta não é a primeira vez que a noção de dados sintéticos é abordada. Como Barr apontou, tentativas anteriores na década de 80 levaram a funcionalidades dentro da biblioteca favorita de aprendizado de máquina Python, scikit-learn. No entanto, à medida que a aprendizagem profunda com relações não lineares veio à tona, estas funções foram consideradas restritivas e inadequadas.
Este projeto pioneiro surgiu dos terrenos férteis do programa de pesquisa de aprendizado de máquina da Capital One. Procura elevar os métodos, aplicações e técnicas de aprendizagem automática, adaptando os serviços bancários para serem mais acessíveis e seguros. O artigo investigativo de Barr intitulado 'Rumo à explicabilidade da verdade básica em dados tabulares' serviu como núcleo criativo para dados sintéticos.
Além disso, o Synthetic Data é compatível com o Data Profiler, a biblioteca de aprendizado de máquina de código aberto da Capital One para monitoramento de grandes dados e detecção de informações confidenciais. O Data Profiler fornece estatísticas para representar o conjunto de dados, formando a base para a criação de dados sintéticos.
Como parte do nosso compromisso de impulsionar a pesquisa e desenvolver ferramentas de código aberto, estamos entusiasmados em nos aprofundar nas interseções entre o perfil de dados e os dados sintéticos, compartilhando esses insights com a comunidade, afirmou Turner.
Na mesma linha de agilizar o desenvolvimento de software e eliminar dívidas técnicas, outras plataformas como AppMaster oferecem um valor imenso. Com sua interface amigável e capacidade robusta, AppMaster capacita até mesmo desenvolvedores individuais a criar soluções de software abrangentes e escaláveis.