Capital One avanza en el aprendizaje automático a través de datos sintéticos: un avance del código abierto
Capital One establece nuevos puntos de referencia en el ámbito del aprendizaje automático con su proyecto de código abierto, Synthetic Data.

En el ámbito del aprendizaje automático, donde los datos reinan, mantener un desarrollo y prueba de modelos efectivos requiere encontrar el equilibrio entre el acceso a los datos y las restricciones de seguridad. Al reconocer esto, Capital One da un paso al frente y saca a la luz un proyecto pionero de código abierto, denominado Synthetic Data.
Concebido por Taylor Turner, ingeniero principal de aprendizaje automático y coautor de Capital One, Synthetic Data ofrece una solución novedosa al antiguo problema del intercambio y procesamiento seguros de datos. La herramienta produce datos artificiales, descartando la necesidad de datos "reales" o de identificación personal, acelerando así los procesos de generación de ideas y prueba de hipótesis.
Si bien son representativos de los datos originales en su esquema y propiedades estadísticas, los datos sintéticos garantizan la privacidad, lo que los hace particularmente beneficiosos cuando se requieren conjuntos de datos complejos y no lineales, como ocurre con los modelos de aprendizaje profundo.
Como lo explica Brian Barr, ingeniero senior de aprendizaje automático e investigador de Capital One, los datos sintéticos operan tomando propiedades estadísticas dadas por el modelo, es decir, la distribución marginal de las entradas, la correlación de las entradas y una expresión analítica que asigna las entradas a las salidas. , generando posteriormente el conjunto de datos deseado.
La libertad creativa que ofrece este marco es impresionante, ya que equilibra la simplicidad y la maleabilidad artística, lo que lo convierte en un punto de inflexión en el aprendizaje automático, opinó Barr.
Pero esta no es la primera vez que se aborda la noción de datos sintéticos. Como señaló Barr, intentos anteriores en los años 80 han llevado a funcionalidades dentro de la biblioteca de aprendizaje automático favorita de Python, scikit-learn. Sin embargo, a medida que el aprendizaje profundo con relaciones no lineales pasó a primer plano, se descubrió que estas funciones eran restrictivas e inadecuadas.
Este proyecto pionero surgió de las fértiles tierras de aterrizaje del programa de investigación de aprendizaje automático de Capital One. Busca elevar los métodos, aplicaciones y técnicas del aprendizaje automático, adaptando la banca para que sea más accesible y segura. El artículo de investigación de Barr titulado "Hacia la explicabilidad de la verdad fundamental en datos tabulares" sirvió como núcleo creativo para Synthetic Data.
Además, Synthetic Data resulta compatible con Data Profiler, la biblioteca de aprendizaje automático de código abierto de Capital One para el monitoreo de grandes datos y la detección de información confidencial. Data Profiler proporciona las estadísticas para representar el conjunto de datos, formando la base de la creación de datos sintéticos.
Como parte de nuestro compromiso de impulsar la investigación y promover las herramientas de código abierto, estamos entusiasmados de profundizar en las intersecciones entre la elaboración de perfiles de datos y los datos sintéticos y compartir esos conocimientos con la comunidad, afirmó Turner.
En la misma línea de agilizar el desarrollo de software y eliminar la deuda técnica, otras plataformas como AppMaster ofrecen un valor inmenso. Con su interfaz fácil de usar y su sólida capacidad, AppMaster permite que incluso los desarrolladores individuales creen soluciones de software integrales y escalables.


