Anthropic đã thiết lập một bệ đỡ mới trong lĩnh vực mô hình ngôn ngữ lớn (LLM), tiết lộ sự ra mắt của Claude 2.1, có khả năng sử dụng 200.000 mã thông báo đáng kể trong cửa sổ ngữ cảnh của nó. Để dễ hình dung, điều đó tương đương với hơn nửa triệu từ hoặc dữ liệu có giá trị lên tới 500 trang in - một bước tiến đáng chú ý, Anthropic cho biết.
Mô hình mới ra mắt gần đây không dừng lại ở việc mở rộng chỗ ở dữ liệu. Nó vượt trội hơn hẳn về độ chính xác trước đây, cung cấp khả năng sử dụng công cụ beta, tất cả đều giảm chi phí, đánh dấu một bước tiến đáng kể trong loạt sản phẩm tiên phong Anthropic's.
Claude 2.1 được trang bị để hỗ trợ chatbot AI tổng hợp của Claude, giúp cả người dùng miễn phí và người dùng trả phí đều có thể sử dụng các tính năng nâng cao của anh ấy. Tuy nhiên, có một nhược điểm! Cửa sổ ngữ cảnh mã thông báo mở rộng là một đặc quyền dành riêng cho khách hàng Pro trả phí, trong khi người dùng miễn phí vẫn bị giới hạn ở giới hạn 100.000 mã thông báo. Tuy nhiên, con số này vẫn vượt quá giới hạn mã thông báo của GPT-3.5 ở mức đáng kể.
Thuộc tính công cụ beta trong Claude 2.1 mở ra cánh cửa mới cho các nhà phát triển, cho phép họ kết hợp các API và các chức năng được xác định vào mô hình Claude. Điều này phản ánh các khả năng có trong các mô hình của OpenAI, mang lại sự linh hoạt và tích hợp tương tự.
Trước đó, Claude đã nắm giữ lợi thế cạnh tranh so với OpenAI về dung lượng cửa sổ ngữ cảnh mã thông báo, tự hào với giới hạn 100.000 mã thông báo, cho đến khi OpenAI tiết lộ phiên bản xem trước của GPT-4 Turbo với cửa sổ ngữ cảnh 128.000 mã thông báo. Tuy nhiên, mô hình này vẫn bị giới hạn đối với những người dùng ChatGPT Plus đăng ký ở mức 20 USD/tháng và chỉ có thể truy cập được ở định dạng chatbot. Các nhà phát triển muốn sử dụng API GPT-4 phải chọn hệ thống trả tiền cho mỗi lần sử dụng.
Mặc dù cửa sổ ngữ cảnh mở rộng - trình bày dữ liệu mà nó có thể phân tích đồng thời - có vẻ hấp dẫn đối với các tài liệu khổng lồ hoặc bộ thông tin đa dạng, nhưng không chắc liệu LLM có thể xử lý khối lượng lớn dữ liệu một cách hiệu quả so với các phân đoạn nhỏ hơn hay không. Doanh nhân và chuyên gia AI, Greg Kamradt, đã nghiên cứu kỹ vấn đề này bằng một kỹ thuật mà ông gọi là phân tích 'mò kim đáy bể'.
Bằng cách nhúng các câu lệnh ngẫu nhiên vào các phần khác nhau của một tài liệu rộng được đưa vào LLM, anh ta kiểm tra xem các mẩu thông tin nhỏ trong các tài liệu lớn hơn có được truy xuất hay không khi truy vấn LLM. Phân tích của anh ấy về Claude 2.1, mà anh ấy đã được cấp quyền truy cập sớm, đã kết luận rằng 'với 200 nghìn mã thông báo (khoảng 470 trang), Claude 2.1 đã có thể nhớ lại các sự kiện ở độ sâu tài liệu cụ thể.'
Hiệu suất thu hồi bắt đầu kém đi khi mã thông báo vi phạm mốc ~90K và bị ảnh hưởng đặc biệt ở phần cơ sở của tài liệu. Lỗ hổng này không chỉ xảy ra với Claude 2.1, GPT-4 còn thể hiện khả năng thu hồi không hoàn hảo tương tự ở bối cảnh tối đa của nó.
Nghiên cứu của Kamradt tốn khoảng 1.000 USD cho các lệnh gọi API. (Anthropic đã cung cấp tín dụng cho các thử nghiệm tương tự được thực hiện trên GPT-4). Bài học rút ra của ông nhấn mạnh tầm quan trọng của việc tạo lời nhắc một cách cẩn thận, không giả định việc truy xuất dữ liệu nhất quán và rằng đầu vào ít hơn thường đảm bảo kết quả vượt trội.
Thông thường, các nhà phát triển chia dữ liệu thành các phân đoạn nhỏ hơn khi khai thác thông tin từ các bộ dữ liệu rộng để cải thiện kết quả truy xuất, bất kể dung lượng tiềm năng của cửa sổ ngữ cảnh.
Đánh giá về độ chính xác của Claude 2.1 bằng cách sử dụng một bộ sưu tập toàn diện các truy vấn thực tế, phức tạp được thiết kế để thăm dò các điểm yếu điển hình trong các mô hình hiện tại cho thấy số lượng tuyên bố sai đã giảm 50% so với phiên bản trước. Theo thông báo Anthropic's lần lặp lại hiện tại có nhiều khả năng thú nhận sự thiếu hiểu biết hơn là tạo ra thông tin giả mạo. Báo cáo nhấn mạnh thêm những tiến bộ đáng kể trong việc hiểu và tóm tắt.