Capital One nâng cao khả năng học máy thông qua dữ liệu tổng hợp: Một bước đột phá về nguồn mở
Capital One đặt ra các tiêu chuẩn mới trong lĩnh vực máy học với dự án nguồn mở, Dữ liệu tổng hợp.

Trong lĩnh vực học máy nơi dữ liệu chiếm ưu thế, việc duy trì việc phát triển và thử nghiệm mô hình hiệu quả đòi hỏi phải điều hướng sự cân bằng giữa quyền truy cập dữ liệu và các hạn chế bảo mật. Nhận thức được điều này, Capital One bắt tay vào việc đưa một dự án nguồn mở tiên phong ra ánh sáng, được mệnh danh là Dữ liệu tổng hợp.
Được hình dung bởi Taylor Turner, kỹ sư máy học hàng đầu và là người đồng đóng góp của Capital One, Dữ liệu tổng hợp cung cấp một giải pháp mới cho vấn đề lâu đời về chia sẻ và xử lý dữ liệu an toàn. Công cụ này tạo ra dữ liệu nhân tạo, loại bỏ nhu cầu về dữ liệu 'thực' hoặc dữ liệu nhận dạng cá nhân, từ đó đẩy nhanh quá trình tạo ý tưởng và thử nghiệm giả thuyết.
Mặc dù đại diện cho dữ liệu gốc trong lược đồ và các thuộc tính thống kê, Dữ liệu tổng hợp đảm bảo quyền riêng tư, khiến dữ liệu này đặc biệt có lợi khi cần có các bộ dữ liệu phi tuyến tính phức tạp, chẳng hạn như với các mô hình học sâu.
Theo giải thích của Brian Barr, một kỹ sư máy học cao cấp và nhà nghiên cứu tại Capital One, Dữ liệu tổng hợp hoạt động bằng cách sử dụng các thuộc tính thống kê do mô hình đưa ra, tức là phân phối biên của đầu vào, tương quan của đầu vào và biểu thức phân tích ánh xạ đầu vào với đầu ra , sau đó tạo ra tập dữ liệu mong muốn.
Barr cho rằng khả năng tự do sáng tạo mà khung này mang lại rất ấn tượng, cân bằng giữa tính đơn giản và tính linh hoạt về mặt nghệ thuật, khiến nó trở thành yếu tố thay đổi cuộc chơi trong lĩnh vực học máy.
Nhưng đây không phải là lần đầu tiên khái niệm dữ liệu tổng hợp được đưa ra. Như Barr đã chỉ ra, những nỗ lực trước đây vào những năm 80 đã dẫn đến các chức năng trong thư viện máy học Python được ưa chuộng, scikit-learn. Tuy nhiên, khi học sâu với các mối quan hệ phi tuyến tính được đặt lên hàng đầu, các chức năng này bị hạn chế và không đầy đủ.
Dự án tiên phong này nảy sinh từ mảnh đất màu mỡ của chương trình nghiên cứu máy học của Capital One. Nó tìm cách nâng cao các phương pháp, ứng dụng và kỹ thuật học máy, điều chỉnh hoạt động ngân hàng để trở nên dễ tiếp cận và an toàn hơn. Bài báo điều tra của Barr có tiêu đề 'Hướng tới khả năng giải thích sự thật cơ bản về dữ liệu dạng bảng' được dùng làm hạt nhân sáng tạo cho Dữ liệu tổng hợp.
Hơn nữa, Dữ liệu tổng hợp chứng tỏ khả năng tương thích với Data Profiler, thư viện máy học nguồn mở của Capital One để giám sát dữ liệu lớn và phát hiện thông tin nhạy cảm. Data Profiler cung cấp số liệu thống kê để thể hiện tập dữ liệu, tạo thành cơ sở cho việc tạo dữ liệu tổng hợp.
Là một phần trong cam kết thúc đẩy nghiên cứu và cải tiến các công cụ nguồn mở, chúng tôi rất vui mừng được nghiên cứu sâu hơn về mối liên hệ giữa lập hồ sơ dữ liệu và chia sẻ dữ liệu tổng hợp những hiểu biết sâu sắc đó với cộng đồng, Turner cho biết.
Cùng xu hướng hợp lý hóa việc phát triển phần mềm và loại bỏ nợ kỹ thuật, các nền tảng khác như AppMaster mang lại giá trị to lớn. Với giao diện thân thiện với người dùng và khả năng mạnh mẽ, AppMaster trao quyền cho ngay cả các nhà phát triển đơn lẻ để tạo ra các giải pháp phần mềm toàn diện và có thể mở rộng.


