Anthropic büyük dil modelleri (LLM'ler) alanında yeni bir temel oluşturdu ve içerik penceresinde önemli miktarda 200.000 token alabilen Claude 2.1'in lansmanını ortaya çıkardı. Anthropic, bunu perspektife koymak gerekirse, bunun yarım milyonun üzerinde kelimeye veya 500'den fazla basılı sayfa değerinde veriye eşdeğer olduğunu belirtti; dikkate değer bir adım.
Yakın zamanda piyasaya sürülen model, veri uyumunu genişletmekle kalmıyor. Anthropic's öncü serisinde kayda değer bir ilerlemeye işaret ederek, beta aracının kullanımını düşük maliyetle sunarak doğruluk konusunda öncüllerini geride bırakıyor.
Claude 2.1, Claude üretken yapay zeka sohbet robotunu güçlendirecek donanıma sahip olarak geliyor ve gelişmiş özelliklerinin hem ücretsiz hem de ücretli kullanıcılar tarafından erişilebilir olmasını sağlıyor. Ancak bir sorun var! Genişletilmiş token bağlam penceresi, ödeme yapan Pro müşterileri için özel bir avantajdır; ücretsiz kullanıcılar ise 100.000 token sınırıyla sınırlı kalır. Ancak yine de bu, GPT-3.5'in token sınırını önemli bir farkla aşıyor.
Claude 2.1'deki beta araç özelliği, geliştiricilere yeni kapılar açarak API'leri ve tanımlanmış işlevleri Claude modeline dahil etmelerine olanak tanıyor. Bu, OpenAI modellerinde mevcut olan yetenekleri yansıtarak benzer esneklik ve entegrasyon sunar.
Bundan önce Claude, 100.000 jeton sınırıyla övünen token bağlam penceresi kapasitesi açısından OpenAI'ye göre zaten rekabet avantajına sahipti, ta ki OpenAI, 128.000 token bağlam penceresine sahip GPT-4 Turbo'nun bir önizleme sürümünü ortaya çıkarana kadar. Ancak bu model, ayda 20 ABD Doları karşılığında abone olan ChatGPT Plus kullanıcılarıyla sınırlı olmaya devam ediyor ve yalnızca chatbot formatında erişilebilir. GPT-4 API'sini kullanmak isteyen geliştiricilerin kullanım başına ödeme sistemini tercih etmesi gerekiyor.
Kapsamlı bir bağlam penceresi (aynı anda analiz edebildiği verilerin bir temsili) çok büyük belgeler veya çeşitli bilgi kümeleri için cazip görünse de, Yüksek Lisans'ların daha küçük bölümlerle karşılaştırıldığında büyük hacimli verileri verimli bir şekilde işleyip işleyemeyeceği kesin değildir. Yapay zeka girişimcisi ve uzmanı Greg Kamradt, 'samanlıktaki iğne' analizi olarak adlandırdığı bir teknikle bu konuyu yakından araştırıyor.
LLM'ye beslenen geniş bir belgenin çeşitli bölümlerine rastgele ifadeler yerleştirerek, LLM sorgulandığında daha büyük belgelerdeki küçük bilgi parçalarının alınıp alınmadığını test eder. Kendisine erken erişim hakkı verilen Claude 2.1 analizi, '200 bin jetonla (yaklaşık 470 sayfa), Claude 2.1'in belirli belge derinliklerindeki gerçekleri hatırlamayı başardığı' sonucuna vardı.
Geri çağırma performansı, tokenlar ~90K sınırını aştığında bozulmaya başladı ve özellikle belgenin tabanında etkilendi. Bu kusur Claude 2.1'e özel değildir; GPT-4, maksimum bağlamda benzer kusurlu hatırlamayı göstermiştir.
Kamradt'ın çalışması API çağrılarından yaklaşık 1.000 ABD Doları tutarında bir ücret alıyor. (Anthropic, GPT-4'te gerçekleştirilen testlerin aynısı için kredi sağladı). Çıkarımları, tutarlı veri alımını varsaymak yerine istemleri dikkatle hazırlamanın önemini ve daha az girdinin genellikle daha iyi sonuçlar sağladığını vurguladı.
Geliştiriciler, bağlam penceresinin potansiyel kapasitesine bakılmaksızın, alma sonuçlarını iyileştirmek için geniş veri kümelerinden bilgi madenciliği yaparken genellikle verileri daha küçük bölümlere ayırır.
Claude 2.1'in doğruluğunun, mevcut modellerdeki tipik zayıf noktaları araştırmak için tasarlanmış karmaşık, gerçeklere dayalı sorgulardan oluşan kapsamlı bir koleksiyon kullanılarak yapılan değerlendirmesi, önceki sürüme kıyasla yanlış beyanlarda %50'lik bir düşüş olduğunu ortaya çıkardı. Anthropic's duyurusuna göre, mevcut yinelemenin sahte bilgi üretmek yerine cehaleti itiraf etme olasılığı daha yüksek. Rapor ayrıca anlama ve özetleme konusunda önemli ilerleme kaydedildiğini vurguluyor.