Anthropic telah menetapkan landasan baru di bidang model bahasa besar (LLM), mengungkapkan peluncuran Claude 2.1, yang mampu menyerap 200,000 token dalam jendela konteksnya. Sebagai gambaran, hal ini setara dengan lebih dari setengah juta kata atau lebih dari 500 halaman cetakan data – sebuah langkah yang luar biasa, kata Anthropic.
Model yang baru diluncurkan tidak berhenti pada perluasan akomodasi data. Ini melampaui pendahulunya dalam hal akurasi, menawarkan penggunaan alat beta, semuanya dengan potongan biaya, menandai kemajuan besar dalam seri perintis Anthropic's.
Claude 2.1 dilengkapi untuk memberdayakan chatbot AI generatif Claude, menjadikan fitur-fiturnya yang ditingkatkan dapat diakses oleh pengguna gratis dan berbayar. Tapi ada kendalanya! Jendela konteks token yang diperluas adalah keuntungan eksklusif bagi pelanggan Pro yang membayar, sedangkan pengguna gratis tetap dibatasi hingga batas 100.000 token. Namun demikian, jumlah ini masih melebihi batas token GPT-3.5 dengan selisih yang cukup besar.
Atribut alat beta di Claude 2.1 membuka pintu baru bagi pengembang, memungkinkan mereka menggabungkan API dan fungsi yang ditentukan ke dalam model Claude. Hal ini mencerminkan kemampuan yang ada dalam model OpenAI, yang menawarkan fleksibilitas dan integrasi serupa.
Sebelumnya, Claude telah memiliki keunggulan kompetitif dibandingkan OpenAI dalam hal kapasitas jendela konteks token, dengan batas 100.000 token, hingga OpenAI mengungkapkan versi pratinjau GPT-4 Turbo dengan jendela konteks 128.000 token. Namun model ini tetap terbatas pada pengguna ChatGPT Plus yang berlangganan $20/bulan dan hanya dapat diakses dalam format chatbot. Pengembang yang ingin menggunakan API GPT-4 harus memilih sistem bayar per penggunaan.
Meskipun jendela konteks yang luas - representasi data yang dapat dianalisis secara bersamaan - mungkin tampak menarik untuk dokumen yang luas atau kumpulan informasi yang beragam, tidak diketahui secara pasti apakah LLM dapat memproses data dalam jumlah besar secara efisien dibandingkan dengan segmen yang lebih kecil. Pengusaha dan pakar AI, Greg Kamradt, telah menyelidiki masalah ini secara mendalam dengan teknik yang ia sebut sebagai analisis 'jarum di tumpukan jerami'.
Dengan menyematkan pernyataan acak di berbagai bagian dokumen luas yang dimasukkan ke dalam LLM, ia menguji apakah potongan kecil informasi dalam dokumen yang lebih besar diambil ketika LLM ditanyakan. Analisisnya terhadap Claude 2.1, yang akses awalnya diberikan kepadanya, menyimpulkan bahwa 'dengan 200 ribu token (kira-kira 470 halaman), Claude 2.1 berhasil mengingat fakta pada kedalaman dokumen tertentu.'
Kinerja penarikan kembali mulai menurun setelah token menembus angka ~90 ribu dan khususnya berdampak pada bagian dasar dokumen. Cacat ini tidak hanya terjadi pada Claude 2.1, GPT-4 menunjukkan penarikan tidak sempurna serupa pada konteks maksimumnya.
Studi Kamradt menghasilkan sekitar $1.000 dalam panggilan API. (Anthropic memang memberikan kredit untuk pengujian yang sama yang dilakukan pada GPT-4). Kesimpulannya menyoroti pentingnya menyusun perintah dengan hati-hati, bukan mengasumsikan pengambilan data yang konsisten, dan bahwa masukan yang lebih sedikit umumnya menjamin hasil yang lebih baik.
Seringkali, pengembang membagi data menjadi segmen yang lebih kecil ketika menambang informasi dari kumpulan data yang luas untuk meningkatkan hasil pengambilan, terlepas dari potensi kapasitas jendela konteks.
Evaluasi keakuratan Claude 2.1 menggunakan kumpulan pertanyaan faktual dan rumit yang komprehensif yang dirancang untuk menyelidiki titik lemah umum dalam model saat ini menunjukkan penurunan pernyataan palsu sebesar 50% dibandingkan versi sebelumnya. Iterasi saat ini lebih cenderung mengakui ketidaktahuan daripada menghasilkan informasi palsu, menurut pengumuman Anthropic's. Laporan ini lebih lanjut menyoroti kemajuan substansial dalam pemahaman dan ringkasan.