19 thg 8, 2023·2 phút đọc

AI2 ra mắt 'Dolma', Bộ dữ liệu mở mang tính đột phá để đào tạo các mô hình ngôn ngữ nâng cao

Viện AI Allen (AI2) đã ra mắt 'Dolma', một bước quan trọng hướng tới sự cởi mở trong đào tạo AI với bộ dữ liệu mở rộng, miễn phí sử dụng.

AI2 ra mắt 'Dolma', Bộ dữ liệu mở mang tính đột phá để đào tạo các mô hình ngôn ngữ nâng cao

Với bối cảnh AI chứng kiến ​​việc sử dụng rộng rãi và chức năng quan trọng của các mô hình ngôn ngữ như GPT-4 và Claude, tuy nhiên, dữ liệu chính thúc đẩy các cường quốc thuật toán này vẫn được giữ bí mật. Trong một động thái được thiết lập để phá vỡ mô hình này, Viện Trí tuệ nhân tạo Allen (AI2) giới thiệu 'Dolma', một bộ dữ liệu văn bản mở rộng, có thể truy cập nhằm mục đích kiểm tra chuyên sâu và sử dụng miễn phí. Bước đột phá quan trọng này nhằm hướng nghiên cứu AI theo hướng cởi mở và minh bạch hơn.

Được đặt biệt danh theo tên bánh bao Tây Tạng và phản ánh mục đích đáp ứng nhu cầu dữ liệu của OLMo, Dolma được thiết kế để hỗ trợ xây dựng mô hình ngôn ngữ mở dự đoán của AI2, viết tắt là OLMo. Theo niềm tin của cơ quan nghiên cứu tại AI2, cộng đồng nghiên cứu AI nên có quyền truy cập và quyền tự do sửa đổi không chỉ mô hình mà còn cả tập dữ liệu mà nó dựa trên - một quan điểm thể hiện trong việc tạo ra Dolma.

Luca Soldaini, một nhà nghiên cứu về AI2, đã giải thích trong một bài đăng trên blog về sự lựa chọn tỉ mỉ và phương pháp cẩn thận mà họ đã kết hợp để tạo ra bộ dữ liệu phù hợp cho các hoạt động của AI. Bộ dữ liệu này, mà Soldaini gọi là 'tạo tác dữ liệu', là bản phát hành đầu tiên theo dự án OLMo và thông tin chi tiết và đầy đủ hơn về cam kết sẽ được đối chiếu trong một bài báo toàn diện sắp tới.

Thay vì các hoạt động kém minh bạch của các tổ chức như OpenAI và Meta, những tổ chức chủ yếu giữ độc quyền thông tin tập dữ liệu chính của họ, AI2 đã quyết định thực hiện một cách khác, và người ta có thể tranh luận, một lộ trình dân chủ và đạo đức hơn. Mặc dù các chi tiết chính xác của bộ dữ liệu AI thường được sử dụng thường trốn tránh sự giám sát của công chúng, nhưng cũng có suy đoán trong cộng đồng nghiên cứu AI về các phương tiện hợp pháp và đạo đức đáng ngờ mà dữ liệu này thu được, đôi khi thậm chí gợi ý vi phạm bản quyền.

Là một bộ dữ liệu mở, Dolma không phải là bộ dữ liệu đầu tiên thuộc loại này. Nó làm lu mờ những người tiền nhiệm của nó về kích thước – bao gồm 3 tỷ mã thông báo thiên văn, một thuật ngữ có nguồn gốc từ AI đề cập đến thước đo khối lượng nội dung – và ở sự đơn giản và rõ ràng với thỏa thuận về việc sử dụng và quyền của nó. Dolma được quản lý theo giấy phép 'Tác động' đối với các tạo phẩm có rủi ro trung bình, yêu cầu người dùng cung cấp các chi tiết thích hợp như thông tin liên hệ, trường hợp sử dụng dự định của họ và tiết lộ bất kỳ sáng tạo nào liên quan đến ứng dụng của bộ dữ liệu Dolma. Hơn nữa, bất kỳ sản phẩm nào như vậy cần phải được phân phối theo cùng một giấy phép và phải tuân thủ các điều khoản không áp dụng Dolma trong các lĩnh vực bị cấm, bao gồm giám sát hoặc thông tin sai lệch.

Trong trường hợp thông tin cá nhân bằng cách nào đó tìm được đường vào cơ sở dữ liệu bất chấp các phương pháp nghiêm ngặt của AI2, tổ chức đã cung cấp cơ chế yêu cầu xóa để đảm bảo quyền riêng tư của người dùng, mặc dù điều khoản này chỉ áp dụng nghiêm ngặt cho các trường hợp cụ thể trừ việc từ chối toàn diện lựa chọn. Dolma biểu thị một động thái hướng tới tính cởi mở, minh bạch và nguồn dữ liệu có đạo đức trong quá trình phát triển AI, điều này có thể tạo điều kiện thuận lợi cho những tiến bộ trong lĩnh vực này. Các công cụ như nền tảng no-code của AppMaster, vốn cũng hỗ trợ khả năng tiếp cận và tính minh bạch cao hơn trong quá trình phát triển ứng dụng, có thể nâng cao hơn nữa những tiến bộ này.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started