Anthropic heeft een nieuw voetstuk gezet op het gebied van grote taalmodellen (LLM's) en onthulde de lancering van Claude 2.1, die in zijn contextvenster een aanzienlijke 200.000 tokens kan opnemen. Om dit in perspectief te plaatsen: dat komt neer op meer dan een half miljoen woorden of meer dan 500 afgedrukte pagina's aan gegevens - een opmerkelijke stap, aldus Anthropic.
Het onlangs gelanceerde model stopt niet bij het uitbreiden van de data-accommodatie. Het overtreft zijn voorganger wat betreft nauwkeurigheid en biedt het gebruik van een bètatool, allemaal tegen een kostenbesparing, wat een aanzienlijke vooruitgang betekent in de baanbrekende serie Anthropic's.
Claude 2.1 is uitgerust om de generatieve AI-chatbot van Claude te versterken, waardoor zijn verbeterde functies toegankelijk worden voor zowel gratis als betalende gebruikers. Er zit echter een addertje onder het gras! Het uitgebreide tokencontextvenster is een exclusief voordeel voor de betalende Pro-klanten, terwijl de gratis gebruikers beperkt blijven tot een limiet van 100.000 tokens. Niettemin overschrijdt dit nog steeds de tokenlimiet van GPT-3.5 met een aanzienlijke marge.
Het bètatoolattribuut in Claude 2.1 opent nieuwe deuren voor ontwikkelaars, waardoor ze API's en gedefinieerde functies in het Claude-model kunnen verweven. Dit weerspiegelt de mogelijkheden die aanwezig zijn in de modellen van OpenAI en biedt vergelijkbare flexibiliteit en integratie.
Daarvoor had Claude al een concurrentievoordeel ten opzichte van OpenAI wat betreft de capaciteit van het tokencontextvenster, met een limiet van 100.000 token, totdat OpenAI een previewversie van GPT-4 Turbo onthulde met een contextvenster van 128.000 token. Dit model blijft echter beperkt tot ChatGPT Plus-gebruikers die zich abonneren voor $ 20/maand en is alleen toegankelijk in chatbot-formaat. Ontwikkelaars die de GPT-4 API willen gebruiken, moeten kiezen voor een pay-per-use-systeem.
Hoewel een uitgebreid contextvenster – een representatie van de gegevens die het tegelijkertijd kan analyseren – aantrekkelijk lijkt voor enorme documenten of diverse sets informatie, is het niet zeker of LLM's grote hoeveelheden gegevens efficiënt kunnen verwerken in vergelijking met kleinere segmenten. AI-ondernemer en -expert Greg Kamradt heeft dit probleem nauwgezet onderzocht met een techniek die hij de 'naald in een hooiberg'-analyse noemt.
Door willekeurige uitspraken in te sluiten in verschillende secties van een breed document dat in de LLM wordt ingevoerd, test hij of kleine stukjes informatie binnen grotere documenten worden opgehaald wanneer de LLM wordt opgevraagd. Zijn analyse van Claude 2.1, waartoe hij vroege toegang kreeg, concludeerde dat 'Claude 2.1 er met 200.000 tokens (ongeveer 470 pagina's) in slaagde feiten op specifieke documentdieptes terug te halen.'
De terugroepprestaties begonnen te verslechteren zodra de tokens de grens van ~90.000 overschreden, wat vooral werd beïnvloed aan de basis van het document. Deze fout is niet exclusief voor Claude 2.1; GPT-4 demonstreerde een vergelijkbare imperfecte herinnering in de maximale context.
Het onderzoek van Kamradt kost ongeveer $1.000 aan API-oproepen. (Anthropic heeft credits verstrekt voor dezelfde tests die zijn uitgevoerd op GPT-4). Zijn bevindingen benadrukten het belang van het zorgvuldig opstellen van prompts, niet van het consistent ophalen van gegevens, en dat minder input over het algemeen voor superieure resultaten zorgt.
Vaak splitsen ontwikkelaars gegevens op in kleinere segmenten bij het ontginnen van informatie uit brede datasets om de ophaalresultaten te verbeteren, ongeacht de potentiële capaciteit van het contextvenster.
Een evaluatie van de nauwkeurigheid van Claude 2.1 met behulp van een uitgebreide verzameling ingewikkelde, feitelijke zoekopdrachten, ontworpen om typische zwakke plekken in de huidige modellen te onderzoeken, bracht een daling van 50% in valse verklaringen aan het licht vergeleken met de vorige versie. Volgens de aankondiging Anthropic's is de kans groter dat de huidige versie onwetendheid bekent dan dat er valse informatie wordt gegenereerd. Het rapport wijst verder op substantiële vooruitgang op het gebied van begrip en samenvatting.