AI2 เปิดตัว 'Dolma' ชุดข้อมูลเปิดที่ก้าวล้ำสำหรับการฝึกอบรมโมเดลภาษาขั้นสูง
Allen Institute for AI (AI2) ได้เปิดตัว 'Dolma' ซึ่งเป็นก้าวสำคัญสู่การเปิดกว้างของการฝึกอบรม AI ด้วยชุดข้อมูลที่กว้างขวางและใช้งานได้ฟรี

ด้วยภูมิทัศน์ของ AI ที่เห็นการใช้งานอย่างแพร่หลายและฟังก์ชันที่สำคัญของโมเดลภาษา เช่น GPT-4 และ Claude ข้อมูลหลักที่เติมเชื้อเพลิงให้กับโรงไฟฟ้าอัลกอริทึมเหล่านี้ยังคงถูกปกปิดเป็นความลับ ในการย้ายที่จะทำลายกระบวนทัศน์นี้ Allen Institute for AI (AI2) นำเสนอ 'Dolma' ซึ่งเป็นชุดข้อมูลแบบข้อความที่กว้างขวางและเข้าถึงได้ซึ่งมีไว้สำหรับการตรวจสอบเชิงลึกและการใช้งานฟรี ความก้าวหน้าครั้งสำคัญนี้มีจุดมุ่งหมายเพื่อนำการวิจัย AI ไปสู่เส้นทางที่เปิดกว้างและโปร่งใสมากขึ้น
Dolma มีชื่อเล่นตามเกี๊ยวทิเบตและสะท้อนถึงจุดประสงค์เพื่อตอบสนองความหิวกระหายข้อมูลของ OLMo Dolma ได้รับการออกแบบมาเพื่อช่วยในการสร้างโมเดลภาษาเปิดที่ AI2 คาดการณ์ไว้ ซึ่งเรียกโดยย่อว่า OLMo ตามความเชื่อของหน่วยงานวิจัยที่ AI2 ชุมชนวิจัย AI ควรมีสิทธิ์เข้าถึงฟรีและมีอำนาจในการปรับเปลี่ยนไม่เพียงแค่โมเดลเท่านั้น แต่ยังรวมถึงชุดข้อมูลที่อิงจาก - มุมมองที่เป็นตัวเป็นตนในการสร้าง Dolma
Luca Soldaini นักวิจัย AI2 อธิบายในบล็อกโพสต์เกี่ยวกับการเลือกอย่างพิถีพิถันและระเบียบวิธีที่รอบคอบที่พวกเขารวมไว้เพื่อให้ชุดข้อมูลเหมาะสำหรับการดำเนินการของ AI ชุดข้อมูลนี้ซึ่ง Soldaini อ้างถึงว่าเป็น 'data artifact' เป็นการเปิดตัวครั้งแรกตามโครงการ OLMo และข้อมูลที่มีรายละเอียดและละเอียดถี่ถ้วนเพิ่มเติมเกี่ยวกับการดำเนินการนี้จะถูกรวบรวมไว้ในเอกสารฉบับสมบูรณ์ที่กำลังจะมีขึ้น
แทนที่จะใช้แนวทางปฏิบัติที่ไม่โปร่งใสขององค์กรอย่าง OpenAI และ Meta ซึ่งส่วนใหญ่เก็บข้อมูลชุดข้อมูลหลักไว้เป็นกรรมสิทธิ์ AI2 ตัดสินใจที่จะใช้แนวทางที่แตกต่างออกไป และอาจมีคนโต้แย้งว่าเป็นเส้นทางที่มีจริยธรรมและเป็นประชาธิปไตยมากกว่า แม้ว่ารายละเอียดที่แม่นยำของชุดข้อมูล AI ที่ใช้กันทั่วไปมักจะหลบเลี่ยงการตรวจสอบจากสาธารณะ แต่ก็มีการคาดเดาในชุมชนการวิจัย AI เกี่ยวกับวิธีการทางจริยธรรมและกฎหมายที่น่าสงสัยซึ่งใช้ในการรับข้อมูลนี้ บางครั้งก็บ่งบอกถึงการละเมิดลิขสิทธิ์
ในฐานะชุดข้อมูลแบบเปิด Dolma ยังห่างไกลจากการเป็นชุดแรก มันบดบังขนาดของโทเค็นรุ่นก่อน – ครอบคลุมโทเค็นทางดาราศาสตร์จำนวน 3 พันล้านโทเค็น ซึ่งเป็นคำดั้งเดิมของ AI ที่หมายถึงการวัดปริมาณเนื้อหา – และในความเรียบง่ายและชัดเจนด้วยข้อตกลงในการใช้งานและสิทธิ์ของมัน Dolma อยู่ภายใต้ใบอนุญาต 'ImpACT' สำหรับสิ่งประดิษฐ์ที่มีความเสี่ยงปานกลาง ซึ่งกำหนดให้ผู้ใช้ต้องให้รายละเอียดที่เกี่ยวข้อง เช่น ข้อมูลติดต่อ กรณีการใช้งานที่ตั้งใจไว้ และการเปิดเผยการสร้างใด ๆ ที่เกี่ยวข้องกับการใช้ชุดข้อมูล Dolma ยิ่งไปกว่านั้น ผลิตภัณฑ์ใดๆ ดังกล่าวจำเป็นต้องจัดจำหน่ายภายใต้ใบอนุญาตเดียวกัน และต้องปฏิบัติตามเงื่อนไขการไม่ใช้ Dolma ในด้านต้องห้าม รวมถึงการเฝ้าระวังหรือการบิดเบือนข้อมูล
ในกรณีที่ข้อมูลส่วนบุคคลสามารถเข้าสู่ฐานข้อมูลได้แม้จะมีวิธีการที่เข้มงวดของ AI2 ก็ตาม องค์กรได้จัดให้มีกลไกการร้องขอการลบเพื่อให้มั่นใจถึงความเป็นส่วนตัวของผู้ใช้ แม้ว่าข้อกำหนดจะเคร่งครัดสำหรับกรณีเฉพาะที่ห้ามการเลือกไม่ใช้ทั้งหมด ตัวเลือก. Dolma แสดงถึงการก้าวไปสู่ความเปิดกว้าง ความโปร่งใส และการจัดหาข้อมูลอย่างมีจริยธรรมในการพัฒนา AI ซึ่งสามารถส่งเสริมความก้าวหน้าในโดเมนนี้ได้ เครื่องมือต่างๆ เช่น แพลตฟอร์ม no-code ของ AppMaster ซึ่งสนับสนุนการเข้าถึงและความโปร่งใสในการพัฒนาแอพมากขึ้น สามารถปรับปรุงความก้าวหน้าเหล่านี้ให้ดียิ่งขึ้น


