تعمل Capital One على تطوير التعلم الآلي من خلال البيانات الاصطناعية: اختراق مفتوح المصدر
تضع شركة Capital One معايير جديدة في مجال التعلم الآلي من خلال مشروعها مفتوح المصدر، Synthetic Data.

في عالم التعلم الآلي حيث تسود البيانات، يتطلب الحفاظ على تطوير النماذج واختبارها بشكل فعال تحقيق التوازن بين الوصول إلى البيانات والقيود الأمنية. وإدراكًا لذلك، تتقدم شركة Capital One إلى الواجهة لتسليط الضوء على مشروع رائد مفتوح المصدر، يُطلق عليه اسم البيانات الاصطناعية.
من تصور تايلور تورنر، مهندس التعلم الآلي الرئيسي في Capital One والمساهم المشارك، تقدم البيانات الاصطناعية حلاً جديدًا للمشكلة القديمة المتمثلة في مشاركة البيانات ومعالجتها بشكل آمن. تنتج الأداة بيانات مصطنعة، مما يلغي الحاجة إلى بيانات "حقيقية" أو بيانات تعريف شخصية، وبالتالي تسريع عمليات توليد الأفكار واختبار الفرضيات.
على الرغم من أنها تمثل البيانات الأصلية في مخططها وخصائصها الإحصائية، إلا أن البيانات الاصطناعية تضمن الخصوصية، مما يجعلها مفيدة بشكل خاص عند الحاجة إلى مجموعات بيانات معقدة وغير خطية، كما هو الحال مع نماذج التعلم العميق.
كما أوضح بريان بار، أحد كبار مهندسي التعلم الآلي والباحث في Capital One، تعمل البيانات الاصطناعية من خلال أخذ الخصائص الإحصائية التي يقدمها النموذج، أي التوزيع الهامشي للمدخلات، وارتباط المدخلات، والتعبير التحليلي الذي يربط المدخلات بالمخرجات ، ثم إنشاء مجموعة البيانات المطلوبة.
الحرية الإبداعية التي يوفرها هذا الإطار مثيرة للإعجاب، حيث توازن بين البساطة والمرونة الفنية، مما يجعلها تغير قواعد اللعبة في التعلم الآلي، حسب رأي بار.
لكن هذه ليست المرة الأولى التي يتم فيها التطرق إلى فكرة البيانات الاصطناعية. كما أشار بار، أدت المحاولات السابقة في الثمانينات إلى ظهور وظائف داخل مكتبة التعلم الآلي المفضلة لبايثون، scikit-learn. ومع ذلك، مع ظهور التعلم العميق مع العلاقات غير الخطية في المقدمة، وجد أن هذه الوظائف مقيدة وغير كافية.
نشأ هذا المشروع الرائد من الأراضي الخصبة لبرنامج أبحاث التعلم الآلي التابع لشركة Capital One. ويسعى إلى رفع مستوى أساليب وتطبيقات وتقنيات التعلم الآلي، وتصميم الخدمات المصرفية لتكون أكثر سهولة وأمانًا. كانت ورقة بار الاستقصائية بعنوان "نحو إمكانية شرح الحقيقة على البيانات الجدولية" بمثابة النواة الإبداعية للبيانات الاصطناعية.
علاوة على ذلك، أثبتت البيانات الاصطناعية توافقها مع Data Profiler، وهي مكتبة التعلم الآلي مفتوحة المصدر التابعة لـ Capital One لمراقبة البيانات الكبيرة واكتشاف المعلومات الحساسة. يوفر ملف تعريف البيانات الإحصائيات لتمثيل مجموعة البيانات، مما يشكل الأساس لإنشاء البيانات الاصطناعية.
صرح تورنر بأنه كجزء من التزامنا بقيادة البحث وتطوير الأدوات مفتوحة المصدر، نحن متحمسون للتعمق أكثر في التقاطعات بين ملفات تعريف البيانات والبيانات الاصطناعية التي تشارك تلك الأفكار مع المجتمع.
وفي نفس سياق تبسيط تطوير البرمجيات والقضاء على الديون التقنية، تقدم منصات أخرى مثل AppMaster قيمة هائلة. بفضل واجهته سهلة الاستخدام وإمكاناته القوية، يعمل AppMaster على تمكين المطورين الفرديين من إنشاء حلول برمجية شاملة وقابلة للتطوير.


