Capital One、合成データを通じて機械学習を前進: オープンソースの画期的な進歩
Capital One は、オープンソース プロジェクトである Synthetic Data を使用して、機械学習分野に新しいベンチマークを設定します。

データが最重要視される機械学習の分野では、効果的なモデルの開発とテストを維持するには、データ アクセスとセキュリティ制限の間のバランスをうまく調整する必要があります。これを認識して、Capital One は、Synthetic Data と呼ばれる先駆的なオープンソース プロジェクトに光を当てます。
Capital One の主任機械学習エンジニアであり共同寄稿者である Taylor Turner によって構想された Synthetic Data は、安全なデータの共有と処理という長年の問題に対する斬新なソリューションを提供します。このツールは人工データを生成し、「本物の」データや個人を特定できるデータの必要性を排除し、それによってアイデア生成と仮説検証のプロセスを加速します。
合成データは、スキーマと統計的特性において元のデータを表しながらプライバシーを保証するため、深層学習モデルのように複雑な非線形データセットが必要な場合に特に有益です。
Capital One の上級機械学習エンジニアであり研究者である Brian Barr 氏が説明しているように、Synthetic Data は、モデルによって与えられる統計的特性 (つまり、入力の周辺分布、入力の相関関係、入力と出力をマッピングする分析式) を取り込むことによって機能します。 、その後、目的のデータセットを生成します。
このフレームワークが提供する創造的な自由は印象的であり、シンプルさと芸術的な順応性のバランスが取れており、機械学習における革新的なものになっている、と Barr 氏は述べています。
しかし、合成データの概念が持ち出されるのはこれが初めてではありません。 Barr 氏が指摘したように、80 年代の以前の試みは、人気の Python 機械学習ライブラリである scikit-learn 内の機能につながりました。しかし、非線形関係を伴うディープラーニングが最前線に立つにつれて、これらの機能は制限的で不十分であることが判明しました。
この先駆的なプロジェクトは、Capital One の機械学習研究プログラムの肥沃な着地点から生まれました。機械学習の方法、アプリケーション、技術を向上させ、銀行業務をよりアクセスしやすく安全なものに仕立てることを目指しています。 「表形式データの地上真実の説明可能性を目指して」というバー氏の調査論文は、合成データの創造的な核として機能しました。
さらに、Synthetic Data は、大規模なデータの監視と機密情報の検出のための Capital One のオープンソース機械学習ライブラリである Data Profiler と互換性があることが証明されています。データ プロファイラーは、データセットを表す統計を提供し、合成データ作成の基礎を形成します。
研究を推進し、オープンソース ツールを進化させるという当社の取り組みの一環として、データ プロファイリングと合成データの交差点をさらに深く掘り下げ、それらの洞察をコミュニティと共有することに興奮しているとターナー氏は述べました。
ソフトウェア開発を合理化し、技術的負債を排除するのと同じように、 AppMasterのような他のプラットフォームは計り知れない価値を提供します。ユーザーフレンドリーなインターフェイスと堅牢な機能を備えたAppMaster 、単一の開発者でも包括的でスケーラブルなソフトウェア ソリューションを作成できるようにします。


