Anthropic verbessert das Sprachverarbeitungsspiel mit der Einführung von Claude 2.1 LLM
Anthropic macht mit seiner neuesten Enthüllung, dem Claude 2.1 LLM, einen bedeutenden Sprung im Repertoire großer Sprachmodelle (LLM).

Anthropic hat ein neues Podest im Bereich der großen Sprachmodelle (LLMs) gesetzt und die Einführung von Claude 2.1 bekannt gegeben, das in seinem Kontextfenster beachtliche 200.000 Token aufnehmen kann. Um das ins rechte Licht zu rücken: Das entspricht über einer halben Million Wörtern oder mehr als 500 gedruckten Seiten an Daten – ein bemerkenswerter Fortschritt, so Anthropic.
Das kürzlich eingeführte Modell hört nicht bei der Ausweitung der Datenaufnahme auf. Es übertrifft seinen Vorgänger in puncto Genauigkeit und bietet die Nutzung des Beta-Tools zu einem geringeren Preis, was einen erheblichen Fortschritt in der bahnbrechenden Serie Anthropic's darstellt.
Claude 2.1 ist so ausgestattet, dass er den generativen KI-Chatbot von Claude unterstützt und seine erweiterten Funktionen sowohl kostenlosen als auch zahlenden Benutzern zugänglich macht. Es gibt jedoch einen Haken! Das erweiterte Token-Kontextfenster ist ein exklusiver Vorteil für zahlende Pro-Kunden, während für kostenlose Benutzer weiterhin ein Limit von 100.000 Token gilt. Dennoch übersteigt dies das Token-Limit von GPT-3.5 immer noch deutlich.
Das Beta-Tool-Attribut in Claude 2.1 öffnet Entwicklern neue Türen und ermöglicht es ihnen, APIs und definierte Funktionen in das Claude-Modell einzubinden. Dies spiegelt die Fähigkeiten der OpenAI-Modelle wider und bietet ähnliche Flexibilität und Integration.
Zuvor hatte Claude mit einem Limit von 100.000 Token bereits einen Wettbewerbsvorteil gegenüber OpenAI in Bezug auf die Kapazität des Token-Kontextfensters, bis OpenAI eine Vorschauversion von GPT-4 Turbo mit einem Kontextfenster von 128.000 Token veröffentlichte. Dieses Modell bleibt jedoch auf ChatGPT Plus-Benutzer beschränkt, die ein Abonnement für 20 $/Monat abschließen, und ist nur im Chatbot-Format zugänglich. Entwickler, die die GPT-4-API nutzen möchten, müssen sich für ein Pay-per-Use-System entscheiden.
Obwohl ein umfangreiches Kontextfenster – eine Darstellung der Daten, die gleichzeitig analysiert werden können – für große Dokumente oder vielfältige Informationsmengen attraktiv erscheinen mag, ist es nicht sicher, ob LLMs große Datenmengen im Vergleich zu kleineren Segmenten effizient verarbeiten können. Der KI-Unternehmer und Experte Greg Kamradt hat dieses Problem mit einer Technik, die er als „Nadel im Heuhaufen“-Analyse bezeichnet, eingehend untersucht.
Indem er zufällige Anweisungen in verschiedene Abschnitte eines umfassenden Dokuments einbettet, das in das LLM eingespeist wird, testet er, ob kleine Informationsteile in größeren Dokumenten abgerufen werden, wenn das LLM abgefragt wird. Seine Analyse von Claude 2.1, für die er frühzeitig Zugang erhielt, kam zu dem Schluss, dass „Claude 2.1 es mit 200.000 Token (ungefähr 470 Seiten) geschafft hat, Fakten in bestimmten Dokumenttiefen abzurufen.“
Die Rückrufleistung begann sich zu verschlechtern, sobald die Token die ~90.000-Marke durchbrachen, und wirkte sich insbesondere an der Basis des Dokuments aus. Dieser Fehler tritt nicht nur bei Claude 2.1 auf, GPT-4 zeigte im maximalen Kontext eine ähnlich unvollständige Erinnerung.
Kamradts Studie verursacht etwa 1.000 US-Dollar an API-Aufrufen. (Anthropic hat Credits für dieselben Tests bereitgestellt, die auf GPT-4 durchgeführt wurden). Seine Erkenntnisse verdeutlichten, wie wichtig es ist, Eingabeaufforderungen sorgfältig zu formulieren und nicht von einem konsistenten Datenabruf auszugehen, und dass geringere Eingaben im Allgemeinen zu besseren Ergebnissen führen.
Um die Abrufergebnisse zu verbessern, teilen Entwickler die Daten häufig in kleinere Segmente auf, wenn sie Informationen aus umfangreichen Datensätzen extrahieren, unabhängig von der potenziellen Kapazität des Kontextfensters.
Eine Bewertung der Genauigkeit von Claude 2.1 anhand einer umfassenden Sammlung komplexer, sachlicher Abfragen zur Untersuchung typischer Schwachstellen in den aktuellen Modellen ergab einen 50-prozentigen Rückgang falscher Aussagen im Vergleich zur Vorgängerversion. Laut der Ankündigung Anthropic's ist es wahrscheinlicher, dass die aktuelle Version Unwissenheit eingesteht, als gefälschte Informationen zu generieren. Der Bericht hebt darüber hinaus erhebliche Fortschritte beim Verständnis und der Zusammenfassung hervor.


