Anthropic estabeleceu um novo pedestal no domínio dos grandes modelos de linguagem (LLMs), revelando o lançamento do Claude 2.1, capaz de ingerir substanciais 200.000 tokens em sua janela de contexto. Para colocar isto em perspectiva, isso equivale a mais de meio milhão de palavras ou mais de 500 páginas impressas de dados – um avanço notável, afirmou Anthropic.
O modelo lançado recentemente não se limita à expansão da acomodação de dados. Supera seu antecessor em precisão, oferecendo o uso de ferramenta beta, tudo com redução de custos, marcando um avanço considerável na série pioneira Anthropic's.
O Claude 2.1 vem equipado para capacitar o chatbot de IA generativo do Claude, tornando seus recursos aprimorados acessíveis para usuários gratuitos e pagantes. Mas há um problema! A janela de contexto de token expandida é uma vantagem exclusiva para os clientes Pro pagantes, enquanto os usuários gratuitos permanecem limitados a um limite de 100.000 tokens. No entanto, isto ainda excede o limite de tokens do GPT-3.5 por uma margem substancial.
O atributo da ferramenta beta no Claude 2.1 abre novas portas para os desenvolvedores, permitindo-lhes integrar APIs e funções definidas no modelo Claude. Isto reflete as capacidades presentes nos modelos OpenAI, oferecendo flexibilidade e integração semelhantes.
Antes disso, Claude já tinha uma vantagem competitiva sobre a OpenAI em termos de capacidade de janela de contexto de token, ostentando um limite de 100.000 tokens, até que a OpenAI revelou uma versão prévia do GPT-4 Turbo com uma janela de contexto de 128.000 tokens. Este modelo, no entanto, permanece limitado a usuários do ChatGPT Plus com assinatura de US$ 20/mês e só é acessível no formato chatbot. Os desenvolvedores que desejam utilizar a API GPT-4 devem optar por um sistema pay-per-use.
Embora uma janela de contexto extensa - uma representação dos dados que pode analisar simultaneamente - possa parecer atraente para documentos vastos ou conjuntos diversos de informações, não é certo se os LLMs podem processar grandes volumes de dados de forma eficiente em comparação com segmentos menores. O empresário e especialista em IA, Greg Kamradt, tem investigado de perto esta questão com uma técnica que ele chama de análise da “agulha no palheiro”.
Ao incorporar declarações aleatórias em várias seções de um documento amplo alimentado no LLM, ele testa se pequenas informações em documentos maiores são recuperadas quando o LLM é consultado. Sua análise do Claude 2.1, ao qual ele obteve acesso antecipado, concluiu que “com 200 mil tokens (aproximadamente 470 páginas), Claude 2.1 conseguiu recordar fatos em profundidades específicas do documento”.
O desempenho do recall começou a se deteriorar quando os tokens ultrapassaram a marca de aproximadamente 90 mil e foram particularmente impactados na base do documento. Esta falha não é exclusiva do Claude 2.1, o GPT-4 demonstrou uma recuperação imperfeita semelhante em seu contexto máximo.
O estudo de Kamradt incorre em aproximadamente US$ 1.000 em chamadas de API. (A Anthropic forneceu créditos para os mesmos testes realizados no GPT-4). Suas conclusões destacaram a importância de elaborar prompts com cuidado, de não presumir uma recuperação de dados consistente e que entradas menores geralmente garantem resultados superiores.
Muitas vezes, os desenvolvedores dividem os dados em segmentos menores ao extrair informações de conjuntos de dados amplos para melhorar os resultados da recuperação, independentemente da capacidade potencial da janela de contexto.
Uma avaliação da precisão do Claude 2.1 usando uma coleção abrangente de consultas factuais intrincadas, projetadas para sondar os pontos fracos típicos dos modelos atuais, revelou uma queda de 50% nas declarações falsas em comparação com a versão anterior. É mais provável que a atual iteração confesse ignorância em vez de gerar informações falsificadas, de acordo com o anúncio Anthropic's. O relatório destaca ainda progressos substanciais na compreensão e resumo.