Chcąc podnieść bezpieczeństwo i niezawodność generatywnych modeli sztucznej inteligencji, zanim wejdą one do użytku publicznego, Meta zaprezentowała niedawno Purple Llama, pionierską inicjatywę mającą na celu opracowywanie instrumentów open source dla programistów. Nowo zaproponowany zestaw narzędzi usprawnia proces oceny, zwiększając w ten sposób przyszłą wiarygodność modeli sztucznej inteligencji.
Meta podkreśliła znaczenie wspólnych wysiłków na rzecz bezpieczeństwa sztucznej inteligencji, podkreślając, że wyzwania stawiane przez sztuczną inteligencję nie dają się znaleźć w odosobnionych rozwiązaniach. Firma przedstawiła cel projektu Purple Llama jako położenie podwalin pod wspólne podstawy ewolucji bezpieczniejszej generatywnej sztucznej inteligencji, szczególnie w obliczu rosnących obaw związanych z dużymi modelami językowymi i pokrewnymi technologiami sztucznej inteligencji.
Dzieląc się tą wiadomością na swoim blogu, Meta stwierdziła: „Istnieje niemożność skonfrontowania się ze złożonością sztucznej inteligencji wśród społeczności opracowującej te systemy. Trzeba przyznać, że nasza inicjatywa ma na celu wyrównanie konkurencji i utworzenie epicentrum godnej zaufania i bezpiecznej sztucznej inteligencji”.
Gareth Lindahl-Wise, dyrektor ds. bezpieczeństwa informacji w firmie Ontinue zajmującej się cyberbezpieczeństwem, pochwalił Purple Llamę jako „postępowy i proaktywny środek” ukierunkowany na bezpieczniejszą sztuczną inteligencję. Wyraził optymizm, że nowa inicjatywa poprawi ochronę na poziomie konsumentów, chociaż mogą pojawiać się twierdzenia dotyczące sygnalizowania cnót lub możliwych ukrytych motywów skupiania rozwoju wokół konkretnej platformy. Zauważył ponadto, że podmioty stojące w obliczu rygorystycznych wymogów wewnętrznych, zorientowanych na klienta lub regulacyjnych będą musiały stosować się do solidnych ocen, które prawdopodobnie przewyższają ofertę Meta.
Angażując sieć twórców sztucznej inteligencji, dostawców usług w chmurze, takich jak AWS i Google Cloud, korporacje półprzewodnikowe Intel, AMD i Nvidia oraz producentów oprogramowania, w tym Microsoft, projekt ma na celu dostarczenie narzędzi zarówno do zastosowań badawczych, jak i komercyjnych, które przetestują możliwości Modele AI i wykrywanie zagrożeń bezpieczeństwa. To zbiorowe podejście odzwierciedla również strategię nowoczesnych platform no-code takich jak AppMaster, które kładą nacisk na współpracę i efektywność w procesie tworzenia aplikacji.
Wśród kolekcji narzędzi opracowanych w ramach projektu Purple Llama jedną z najważniejszych jest CyberSecEval – aplikacja do analizy zagrożeń cyberbezpieczeństwa w oprogramowaniu wytwarzanym przez sztuczną inteligencję. Zawiera model językowy, który rozpoznaje tekst szkodliwy lub nieodpowiedni, obejmujący dyskurs zawierający przemoc lub nielegalne działania. Programiści mogą wykorzystać CyberSecEval, aby sprawdzić, czy ich modele sztucznej inteligencji są podatne na generowanie niebezpiecznego kodu lub wspieranie cyberataków. Warto zauważyć, że dochodzenie Meta wykazało, że duże modele językowe często obsługują wrażliwy kod, zwracając w ten sposób uwagę na konieczność konsekwentnego testowania i ulepszania bezpieczeństwa sztucznej inteligencji.
Llama Guard stanowi dodatkowe narzędzie w tej ofercie. Jest to kompleksowy model językowy przeszkolony do wykrywania potencjalnie szkodliwego lub obraźliwego języka. To narzędzie umożliwia programistom ocenę, czy ich modele generują lub akceptują niebezpieczną zawartość, pomagając w ten sposób w filtrowaniu podpowiedzi, które mogą generować niewłaściwe wyniki.