Anthropic ustanowił nowy piedestał w dziedzinie dużych modeli językowych (LLM), ujawniając premierę Claude 2.1, zdolnego do przyjęcia znacznych 200 000 tokenów w swoim oknie kontekstowym. Dla porównania, oznacza to ponad pół miliona słów lub ponad 500 wydrukowanych stron danych – stwierdził Anthropic, co stanowi niezwykły postęp.
Niedawno wprowadzony model nie kończy się na rozbudowie akomodacji danych. Przewyższa swoich poprzedników pod względem dokładności, oferując wykorzystanie narzędzia w wersji beta, a wszystko to przy obniżonych kosztach, co oznacza znaczny postęp w pionierskiej serii Anthropic's.
Claude 2.1 jest wyposażony w narzędzia umożliwiające generatywnego chatbota AI Claude, dzięki czemu jego ulepszone funkcje są dostępne zarówno dla użytkowników bezpłatnych, jak i płatnych. Jest jednak pewien haczyk! Rozszerzone okno kontekstowe tokenów to ekskluzywna korzyść dla klientów płacących Pro, podczas gdy w przypadku użytkowników bezpłatnych obowiązuje limit 100 000 tokenów. Niemniej jednak nadal znacznie przekracza to limit tokenów GPT-3.5.
Atrybut narzędzia beta w Claude 2.1 otwiera nowe drzwi dla programistów, umożliwiając im wplatanie interfejsów API i zdefiniowanych funkcji w model Claude. Odzwierciedla to możliwości obecne w modelach OpenAI, oferując podobną elastyczność i integrację.
Już wcześniej Claude miał przewagę konkurencyjną nad OpenAI pod względem pojemności okna kontekstu tokenów, mogąc pochwalić się limitem 100 000 tokenów, dopóki OpenAI nie ujawniło wersji poglądowej GPT-4 Turbo z oknem kontekstu mieszczącym 128 000 tokenów. Model ten jest jednak ograniczony do użytkowników ChatGPT Plus subskrybujących za 20 USD miesięcznie i jest dostępny tylko w formacie chatbota. Programiści chcący korzystać z interfejsu API GPT-4 muszą wybrać system płatności za użycie.
Chociaż obszerne okno kontekstowe – reprezentacja danych, które może analizować jednocześnie – może wydawać się atrakcyjne w przypadku obszernych dokumentów lub różnorodnych zestawów informacji, nie jest pewne, czy LLM będą w stanie efektywnie przetwarzać duże ilości danych w porównaniu z mniejszymi segmentami. Przedsiębiorca i ekspert w dziedzinie sztucznej inteligencji, Greg Kamradt, dokładnie bada tę kwestię za pomocą techniki, którą nazywa analizą „igły w stogu siana”.
Osadzając losowe stwierdzenia w różnych sekcjach obszernego dokumentu wprowadzanego do LLM, sprawdza, czy podczas odpytywania LLM zostaną odnalezione małe fragmenty informacji z większych dokumentów. Z jego analizy Claude 2.1, do której uzyskał wcześniejszy dostęp, wynika, że „przy 200 tys. tokenów (około 470 stron) Claude 2.1 zdołał przywołać fakty na określonej głębokości dokumentu”.
Wydajność wycofywania zaczęła się pogarszać, gdy tokeny przekroczyły granicę ~90 000, co miało szczególny wpływ na podstawę dokumentu. Ta wada nie dotyczy wyłącznie Claude 2.1, GPT-4 wykazał podobne niedoskonałe przypominanie w maksymalnym kontekście.
Badanie Kamradta wiąże się z kosztami wywołań API wynoszących około 1000 dolarów. (Anthropic zapewnił kredyty za te same testy przeprowadzone na GPT-4). Jego wnioski podkreśliły, jak ważne jest ostrożne opracowywanie podpowiedzi, a nie zakładanie spójnego wyszukiwania danych, oraz że mniejsze nakłady zazwyczaj zapewniają lepsze wyniki.
Często programiści dzielą dane na mniejsze segmenty podczas wydobywania informacji z szerokich zbiorów danych, aby poprawić wyniki wyszukiwania, niezależnie od potencjalnej pojemności okna kontekstowego.
Ocena dokładności Claude'a 2.1 przy użyciu obszernego zbioru skomplikowanych, opartych na faktach zapytań mających na celu zbadanie typowych słabych punktów w bieżących modelach ujawniła 50% spadek liczby fałszywych stwierdzeń w porównaniu z poprzednią wersją. Zgodnie z zapowiedzią Anthropic's w obecnej wersji istnieje większe prawdopodobieństwo przyznania się do niewiedzy niż wygenerowania fałszywych informacji. W raporcie podkreślono ponadto znaczny postęp w rozumieniu i podsumowywaniu.