Anthropic ได้สร้างรากฐานใหม่ในขอบเขตของโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเผยให้เห็นการเปิดตัว Claude 2.1 ซึ่งสามารถนำเข้าโทเค็นจำนวนมาก 200,000 รายการในหน้าต่างบริบท หากจะมองให้เข้าใจในภาพรวม นั่นเท่ากับปริมาณข้อมูลมากกว่าครึ่งล้านคำหรือมากกว่า 500 หน้าที่พิมพ์ ถือเป็นความก้าวหน้าครั้งสำคัญ Anthropic กล่าว
โมเดลที่เพิ่งเปิดตัวไม่ได้หยุดอยู่เพียงการขยายที่พักข้อมูล มีความแม่นยำเหนือกว่ารุ่นก่อน โดยนำเสนอการใช้เครื่องมือเบต้าโดยลดต้นทุน ถือเป็นความก้าวหน้าอย่างมากในซีรีส์บุกเบิก Anthropic's
Claude 2.1 มาพร้อมกับการเสริมศักยภาพให้กับแชทบอต AI ที่สร้างโดย Claude ทำให้ผู้ใช้ทั้งแบบฟรีและจ่ายเงินสามารถเข้าถึงฟีเจอร์ที่ได้รับการปรับปรุงได้ แม้ว่าจะมีการจับ! หน้าต่างบริบทโทเค็นที่ขยายเป็นสิทธิพิเศษสำหรับลูกค้า Pro ที่ชำระเงิน ในขณะที่ผู้ใช้ฟรียังคงจำกัดอยู่ที่ขีดจำกัด 100,000 โทเค็น อย่างไรก็ตาม สิ่งนี้ยังคงเกินขีดจำกัดโทเค็นของ GPT-3.5 ด้วยส่วนต่างที่สำคัญ
คุณลักษณะเครื่องมือเบต้าใน Claude 2.1 เปิดประตูใหม่สำหรับนักพัฒนา ทำให้พวกเขาสามารถสานต่อ API และฟังก์ชันที่กำหนดลงในโมเดล Claude สิ่งนี้สะท้อนให้เห็นถึงความสามารถที่มีอยู่ในโมเดลของ OpenAI โดยให้ความยืดหยุ่นและการบูรณาการที่คล้ายคลึงกัน
ก่อนหน้านี้ Claude มีความได้เปรียบในการแข่งขันเหนือ OpenAI ในแง่ของความจุหน้าต่างบริบทโทเค็น โดยมีขีดจำกัดโทเค็น 100,000 โทเค็น จนกระทั่ง OpenAI เผยเวอร์ชันตัวอย่างของ GPT-4 Turbo ด้วยหน้าต่างบริบทโทเค็น 128,000 อย่างไรก็ตาม โมเดลนี้ยังคงจำกัดเฉพาะผู้ใช้ ChatGPT Plus ที่สมัครสมาชิกในราคา $20/เดือน และสามารถเข้าถึงได้ในรูปแบบแชทบอทเท่านั้น นักพัฒนาที่ต้องการใช้ GPT-4 API ต้องเลือกใช้ระบบจ่ายตามการใช้งาน
แม้ว่าหน้าต่างบริบทที่กว้างขวางซึ่งเป็นการแสดงข้อมูลที่สามารถวิเคราะห์พร้อมกันอาจดูน่าสนใจสำหรับเอกสารจำนวนมากหรือชุดข้อมูลที่หลากหลาย แต่ก็ไม่แน่ใจว่า LLM จะสามารถประมวลผลข้อมูลปริมาณมากได้อย่างมีประสิทธิภาพหรือไม่เมื่อเทียบกับกลุ่มที่เล็กกว่า Greg Kamradt ผู้ประกอบการและผู้เชี่ยวชาญด้าน AI ได้ตรวจสอบปัญหานี้อย่างใกล้ชิดด้วยเทคนิคที่เขาเรียกว่าการวิเคราะห์ "เข็มในกองหญ้า"
ด้วยการฝังคำสั่งแบบสุ่มในส่วนต่างๆ ของเอกสารกว้างๆ ที่ป้อนเข้าไปใน LLM เขาทดสอบว่าข้อมูลชิ้นเล็กๆ ภายในเอกสารขนาดใหญ่ถูกเรียกค้นหรือไม่เมื่อมีการสอบถาม LLM การวิเคราะห์ Claude 2.1 ของเขา ซึ่งเขาได้รับสิทธิ์เข้าถึงก่อนใคร สรุปว่า 'ด้วยโทเค็น 200,000 โทเค็น (ประมาณ 470 หน้า) Claude 2.1 สามารถเรียกคืนข้อเท็จจริงในระดับความลึกของเอกสารที่เฉพาะเจาะจงได้'
ประสิทธิภาพการเรียกคืนเริ่มลดลงเมื่อโทเค็นทะลุเครื่องหมาย ~90K และได้รับผลกระทบเป็นพิเศษที่ฐานของเอกสาร ข้อบกพร่องนี้ไม่ได้จำกัดเฉพาะ Claude 2.1 เท่านั้น GPT-4 แสดงให้เห็นถึงการเรียกคืนที่ไม่สมบูรณ์ที่คล้ายกันในบริบทสูงสุด
การศึกษาของ Kamradt มีค่าใช้จ่ายประมาณ 1,000 ดอลลาร์สหรัฐฯ จากการเรียก API (Anthropic ให้เครดิตสำหรับการทดสอบเดียวกันกับ GPT-4) ประเด็นสำคัญของเขาเน้นย้ำถึงความสำคัญของการประดิษฐ์คำสั่งด้วยความระมัดระวัง ไม่ใช่การดึงข้อมูลอย่างสม่ำเสมอ และอินพุตที่น้อยกว่าโดยทั่วไปจะให้ผลลัพธ์ที่เหนือกว่า
บ่อยครั้งที่นักพัฒนาแบ่งข้อมูลออกเป็นส่วนเล็กๆ เมื่อทำการขุดข้อมูลจากชุดข้อมูลกว้างๆ เพื่อปรับปรุงผลลัพธ์การดึงข้อมูล โดยไม่คำนึงถึงความสามารถที่เป็นไปได้ของหน้าต่างบริบท
การประเมินความแม่นยำของ Claude 2.1 โดยใช้การรวบรวมคำถามเชิงข้อเท็จจริงที่ซับซ้อนซึ่งออกแบบมาเพื่อตรวจสอบจุดอ่อนทั่วไปในแบบจำลองปัจจุบัน พบว่าข้อความเท็จลดลง 50% เมื่อเทียบกับเวอร์ชันก่อนหน้า การทำซ้ำในปัจจุบันมีแนวโน้มที่จะสารภาพความไม่รู้มากกว่าการสร้างข้อมูลปลอมตามประกาศ Anthropic's รายงานยังเน้นย้ำถึงความคืบหน้าอย่างมากในด้านความเข้าใจและการสรุป