Trong một động thái nhằm nâng cao tính bảo mật và độ tin cậy của các mô hình trí tuệ nhân tạo tổng hợp trước khi chúng được đưa vào sử dụng công cộng, Meta gần đây đã công bố Purple Llama, một sáng kiến tiên phong cam kết phát minh ra các công cụ nguồn mở cho các nhà phát triển. Bộ công cụ mới được đề xuất giúp tăng cường quá trình đánh giá, do đó, nâng cao độ tin cậy của các mô hình AI trong tương lai.
Meta nhấn mạnh tầm quan trọng của những nỗ lực tập thể đối với sự an toàn của AI, đồng thời nhấn mạnh rằng những thách thức do trí tuệ nhân tạo đặt ra không phù hợp với các giải pháp riêng lẻ. Công ty mô tả mục tiêu của Purple Llama là đặt nền tảng cho nền tảng chung trong quá trình phát triển AI thế hệ an toàn hơn, đặc biệt là trong bối cảnh mối lo ngại ngày càng tăng xung quanh các mô hình ngôn ngữ lớn và các công nghệ AI tương đồng.
Trong khi chia sẻ tin tức trên blog của mình, Meta bày tỏ: “Cộng đồng đang phát triển các hệ thống này không có khả năng đối mặt với sự phức tạp của AI. Phải thừa nhận rằng sáng kiến của chúng tôi mong muốn san bằng sự cạnh tranh và ươm tạo một trung tâm cho AI đáng tin cậy và an toàn.”
Gareth Lindahl-Wise, Giám đốc An ninh Thông tin tại công ty an ninh mạng Ontinue, ca ngợi Purple Llama là “một biện pháp tiến bộ và chủ động” hướng tới AI an toàn hơn. Ông bày tỏ sự lạc quan rằng sáng kiến mới sẽ tăng cường bảo vệ ở cấp độ người tiêu dùng, mặc dù có thể có những khẳng định xung quanh tín hiệu đạo đức hoặc những động cơ thầm kín có thể có trong việc thu thập sự phát triển xung quanh một nền tảng cụ thể. Ông lưu ý thêm rằng các thực thể phải đối mặt với các yêu cầu nghiêm ngặt về nội bộ, hướng tới khách hàng hoặc quy định sẽ cần phải tuân thủ các đánh giá mạnh mẽ có khả năng vượt xa các dịch vụ từ Meta.
Với sự tham gia của mạng lưới các nhà phát triển AI, nhà cung cấp dịch vụ đám mây như AWS và Google Cloud, các tập đoàn bán dẫn Intel, AMD và Nvidia cũng như các công ty phần mềm bao gồm Microsoft, dự án nhằm mục đích cung cấp các công cụ cho cả ứng dụng nghiên cứu và thương mại, nhằm kiểm tra khả năng của Mô hình AI và phát hiện rủi ro an toàn. Cách tiếp cận tập thể này cũng phản ánh chiến lược của các nền tảng no-code hiện đại như AppMaster, trong đó nhấn mạnh đến sự hợp tác và hiệu quả trong hành trình phát triển ứng dụng phần mềm.
Trong số bộ sưu tập các công cụ do dự án Purple Llama triển khai, CyberSecEval, một ứng dụng phân tích rủi ro an ninh mạng trong phần mềm do AI chế tạo, là một trong những điểm nổi bật. Nó kết hợp một mô hình ngôn ngữ có thể nhận dạng văn bản có hại hoặc không phù hợp, bao gồm diễn ngôn bạo lực hoặc các hoạt động bất hợp pháp. Các nhà phát triển có thể tận dụng CyberSecEval để xác nhận xem mô hình AI của họ có dễ tạo ra mã không an toàn hoặc hỗ trợ các cuộc tấn công mạng hay không. Đáng chú ý, cuộc điều tra của Meta đã phát hiện ra rằng các mô hình ngôn ngữ lớn thường xác nhận mã dễ bị tấn công, do đó thu hút sự chú ý đến sự cần thiết phải thử nghiệm và nâng cao nhất quán cho bảo mật AI.
Llama Guard tạo thành một công cụ bổ sung trong sản phẩm này. Đây là một mô hình ngôn ngữ toàn diện được đào tạo để phát hiện ngôn ngữ có khả năng gây hại hoặc xúc phạm. Công cụ này cho phép các nhà phát triển đánh giá xem mô hình của họ có tạo ra hoặc chấp nhận nội dung không an toàn hay không, từ đó hỗ trợ lọc các lời nhắc có thể dẫn đến kết quả đầu ra không phù hợp.