27 Nov 2023·1 menit membaca

Capital One Memajukan Pembelajaran Mesin melalui Data Sintetis: Sebuah Terobosan Sumber Terbuka

Capital One menetapkan tolok ukur baru di arena machine learning dengan proyek sumber terbukanya, Data Sintetis.

Capital One Memajukan Pembelajaran Mesin melalui Data Sintetis: Sebuah Terobosan Sumber Terbuka

Dalam bidang pembelajaran mesin di mana data memegang kendali tertinggi, mempertahankan pengembangan dan pengujian model yang efektif memerlukan keseimbangan antara akses data dan pembatasan keamanan. Menyadari hal ini, Capital One mengambil langkah untuk meluncurkan proyek sumber terbuka perintis, yang disebut Data Sintetis.

Dibayangkan oleh Taylor Turner, insinyur pembelajaran mesin utama Capital One, dan salah satu kontributor, Data Sintetis menawarkan solusi baru untuk masalah lama dalam berbagi dan pemrosesan data yang aman. Alat ini menghasilkan data buatan, menghilangkan kebutuhan akan data 'nyata' atau data yang dapat diidentifikasi secara pribadi, sehingga mempercepat proses pembuatan ide dan pengujian hipotesis.

Meskipun mewakili data asli dalam skema dan properti statistiknya, Data Sintetis menjamin privasi, sehingga sangat bermanfaat jika diperlukan kumpulan data nonlinier yang rumit, seperti pada model pembelajaran mendalam.

Seperti yang dijelaskan oleh Brian Barr, insinyur pembelajaran mesin senior, dan peneliti di Capital One, Data Sintetis beroperasi dengan mengambil properti statistik yang diberikan oleh model, yaitu distribusi marjinal masukan, korelasi masukan, dan ekspresi analitis yang memetakan masukan ke keluaran. , kemudian menghasilkan kumpulan data yang diinginkan.

Kebebasan berkreasi yang ditawarkan kerangka kerja ini sangat mengesankan, menyeimbangkan kesederhanaan dan kelenturan artistik, menjadikannya pengubah permainan dalam pembelajaran mesin, kata Barr.

Namun ini bukan pertama kalinya gagasan tentang data sintetis disinggung. Seperti yang ditunjukkan Barr, upaya sebelumnya di tahun 80an telah menghasilkan fungsionalitas dalam perpustakaan pembelajaran mesin Python yang disukai, scikit-learn. Namun, seiring dengan mengedepankannya pembelajaran mendalam dengan hubungan nonlinier, fungsi-fungsi ini dianggap terbatas dan tidak memadai.

Proyek perintis ini muncul dari landasan subur program penelitian pembelajaran mesin Capital One. Hal ini bertujuan untuk meningkatkan metode, aplikasi, dan teknik pembelajaran mesin, sehingga perbankan menjadi lebih mudah diakses dan aman. Makalah investigasi Barr yang berjudul 'Menuju Penjelasan Kebenaran Dasar pada Data Tabular' berfungsi sebagai inti kreatif untuk Data Sintetis.

Selain itu, Data Sintetis terbukti kompatibel dengan Data Profiler, pustaka pembelajaran mesin sumber terbuka Capital One untuk pemantauan data besar dan deteksi informasi sensitif. Data Profiler menyediakan statistik untuk mewakili kumpulan data, yang menjadi dasar pembuatan data sintetis.

Sebagai bagian dari komitmen kami untuk mendorong penelitian dan memajukan alat sumber terbuka, kami bersemangat untuk menggali lebih dalam titik temu antara pembuatan profil data dan data sintetis yang membagikan wawasan tersebut kepada komunitas, kata Turner.

Sejalan dengan menyederhanakan pengembangan perangkat lunak dan menghilangkan utang teknis, platform lain seperti AppMaster menawarkan nilai yang sangat besar. Dengan antarmuka yang ramah pengguna dan kemampuan yang kuat, AppMaster memberdayakan pengembang tunggal sekalipun untuk menciptakan solusi perangkat lunak yang komprehensif dan terukur.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started