在数据占主导地位的机器学习领域,保持有效的模型开发和测试需要在数据访问和安全限制之间取得平衡。认识到这一点,第一资本挺身而出,推出了一个名为“合成数据”的开创性开源项目。
Capital One 的首席机器学习工程师兼共同贡献者 Taylor Turner 设想,Synthetic Data 为安全数据共享和处理这一古老问题提供了一种新颖的解决方案。该工具生成人工数据,无需“真实”或个人可识别数据,从而加速想法生成和假设检验过程。
虽然合成数据在其模式和统计属性中代表原始数据,但它可以保证隐私,这使得它在需要复杂的非线性数据集(例如深度学习模型)时特别有用。
正如第一资本高级机器学习工程师兼研究员 Brian Barr 所解释的那样,合成数据通过吸收模型给出的统计属性来运行,即输入的边际分布、输入的相关性以及将输入映射到输出的分析表达式,随后生成所需的数据集。
巴尔认为,该框架提供的创作自由度令人印象深刻,平衡了简单性和艺术可塑性,使其成为机器学习领域的游戏规则改变者。
但这并不是第一次提出合成数据的概念。正如 Barr 指出的那样,之前在 80 年代的尝试已经在受欢迎的 Python 机器学习库 scikit-learn 中实现了功能。然而,随着具有非线性关系的深度学习走到最前沿,人们发现这些功能具有限制性和不足。
这个开创性的项目源于 Capital One 机器学习研究项目的沃土。它致力于提升机器学习的方法、应用和技术,使银行业务变得更容易访问和安全。巴尔的题为“表格数据的地面真相可解释性”的研究论文成为合成数据的创意核心。
此外,Synthetic Data 被证明与 Data Profiler 兼容,Data Profiler 是 Capital One 的开源机器学习库,用于大数据监控和敏感信息检测。 Data Profiler 提供表示数据集的统计数据,构成合成数据创建的基础。
特纳表示,作为我们推动研究和推进开源工具承诺的一部分,我们很高兴能够更深入地研究数据分析和合成数据之间的交叉点,并与社区分享这些见解。
与简化软件开发和消除技术债务一样, AppMaster等其他平台也提供了巨大的价值。凭借其用户友好的界面和强大的功能, AppMaster甚至使单个开发人员也能够创建全面且可扩展的软件解决方案。