22 nov. 2023·2 min de lecture

Anthropic élève le jeu de traitement du langage avec l'avènement de Claude 2.1 LLM

Anthropic fait un grand pas en avant dans le répertoire des grands modèles de langage (LLM) avec sa dernière révélation, le Claude 2.1 LLM.

Anthropic élève le jeu de traitement du langage avec l'avènement de Claude 2.1 LLM

Anthropic a posé un nouveau piédestal dans le domaine des grands modèles de langage (LLM), révélant le lancement de Claude 2.1, capable d'ingérer 200 000 jetons dans sa fenêtre contextuelle. Pour mettre cela en perspective, cela équivaut à plus d'un demi-million de mots ou à plus de 500 pages imprimées de données - un progrès remarquable, a déclaré Anthropic.

Le modèle récemment lancé ne se limite pas à étendre l’hébergement des données. Il surpasse son prédécesseur en termes de précision, offrant l'utilisation d'un outil bêta, le tout à un coût réduit, marquant une avancée considérable dans la série pionnière Anthropic's.

Claude 2.1 est équipé pour renforcer le chatbot génératif Claude, rendant ses fonctionnalités améliorées accessibles aux utilisateurs gratuits et payants. Mais il y a un piège ! La fenêtre contextuelle étendue des jetons est un avantage exclusif pour les clients Pro payants, tandis que les utilisateurs gratuits restent plafonnés à une limite de 100 000 jetons. Néanmoins, cela dépasse encore largement la limite de jetons de GPT-3.5.

L'attribut d'outil bêta de Claude 2.1 ouvre de nouvelles portes aux développeurs, leur permettant d'intégrer des API et des fonctions définies dans le modèle Claude. Cela reflète les capacités présentes dans les modèles OpenAI, offrant une flexibilité et une intégration similaires.

Avant cela, Claude détenait déjà un avantage concurrentiel sur OpenAI en termes de capacité de fenêtre contextuelle de jetons, avec une limite de 100 000 jetons, jusqu'à ce qu'OpenAI révèle une version préliminaire de GPT-4 Turbo avec une fenêtre contextuelle de 128 000 jetons. Ce modèle reste cependant limité aux utilisateurs de ChatGPT Plus abonnés à 20$/mois et n'est accessible qu'au format chatbot. Les développeurs souhaitant utiliser l'API GPT-4 doivent opter pour un système de paiement à l'utilisation.

Bien qu'une fenêtre contextuelle étendue - une représentation des données qu'elle peut analyser simultanément - puisse sembler intéressante pour de vastes documents ou des ensembles d'informations divers, il n'est pas certain que les LLM puissent traiter efficacement de gros volumes de données par rapport à des segments plus petits. L'entrepreneur et expert en IA Greg Kamradt a étudié de près cette question avec une technique qu'il appelle l'analyse de « l'aiguille dans une botte de foin ».

En intégrant des déclarations aléatoires dans diverses sections d'un vaste document introduit dans le LLM, il teste si de petites informations contenues dans des documents plus volumineux sont récupérées lorsque le LLM est interrogé. Son analyse de Claude 2.1, pour laquelle il a obtenu un accès anticipé, a conclu qu'« avec 200 000 jetons (environ 470 pages), Claude 2.1 a réussi à rappeler des faits à des profondeurs de document spécifiques ».

Les performances de rappel ont commencé à se détériorer une fois que les jetons ont dépassé la barre des ~90 000 et ont été particulièrement affectées à la base du document. Cette faille n'est pas exclusive à Claude 2.1, GPT-4 a démontré un rappel imparfait similaire dans son contexte maximum.

L'étude de Kamradt coûte environ 1 000 $ en appels API. (Anthropic a fourni des crédits pour les mêmes tests effectués sur GPT-4). Ses points à retenir ont souligné l'importance de rédiger les invites avec soin, de ne pas supposer une récupération de données cohérente, et que des entrées moindres garantissent généralement des résultats supérieurs.

Souvent, les développeurs divisent les données en segments plus petits lorsqu'ils extraient des informations à partir de vastes ensembles de données afin d'améliorer les résultats de récupération, quelle que soit la capacité potentielle de la fenêtre contextuelle.

Une évaluation de la précision de Claude 2.1 à l'aide d'un ensemble complet de requêtes factuelles complexes conçues pour sonder les points faibles typiques des modèles actuels a révélé une baisse de 50 % des fausses déclarations par rapport à la version précédente. L'itération actuelle est plus susceptible d'avouer son ignorance plutôt que de générer des informations contrefaites, selon l'annonce Anthropic's. Le rapport souligne en outre des progrès substantiels en matière de compréhension et de synthèse.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started