Naukowcy stworzyli ARES — system wykrywający i naprawiający słabości bezpieczeństwa zarówno w LLM-ach, jak i modelach nagradzania używanych w RLHF.

Źródło zdjęcia: arXiv.org
Naukowcy opracowali ARES — nowy framework, który jednocześnie wykrywa i naprawia luki bezpieczeństwa w systemach sztucznej inteligencji uczonych z wykorzystaniem ludzkiej opinii (RLHF). Badanie zostało opublikowane na arXiv przez zespół z Uniwersytetu Kalifornijskiego w Los Angeles i innych instytucji.
ARES adresuje kluczowy problem w uczeniu ze wzmocnieniem z ludzkiej opinii: nieperfektny model nagradzania (Reward Model) może stać się pojedynczym punktem awarii, gdy nie potrafi penalizować niebezpiecznych zachowań. Podczas gdy dotychczasowe metody red-teamingu skupiały się głównie na słabościach na poziomie polityki, nowy framework wykrywa to, co autorzy nazywają "słabościami systemowymi" — przypadki, gdy zarówno podstawowy model językowy, jak i model nagradzania zawodzą jednocześnie.
• Podwójna identyfikacja słabości: ARES używa "Safety Mentora", który dynamicznie komponuje semantycznie spójne prompty adversarialne, łącząc strukturalne komponenty (tematy, persony, taktyki, cele) i generuje odpowiadające im złośliwe i bezpieczne odpowiedzi
• Dwuetapowy proces naprawy: Framework implementuje najpierw fine-tuning modelu nagradzania w celu lepszego wykrywania szkodliwych treści, a następnie wykorzystuje ulepszoną RM do optymalizacji głównego modelu
• Systemowe podejście do bezpieczeństwa: W przeciwieństwie do tradycyjnych metod red-teamingu, ARES wykrywa przypadki jednoczesnej awarii zarówno podstawowego LLM-a, jak i modelu nagradzania
• Zachowanie wydajności: Eksperymenty na wielu benchmarkach bezpieczeństwa pokazują, że ARES znacząco poprawia odporność na ataki przy zachowaniu oryginalnych możliwości modelu
• Nowy paradygmat: Rozwiązanie ustanawia nowe podejście do kompleksowego wyrównywania bezpieczeństwa w systemach RLHF
Framework ARES wykorzystuje komponenty strukturalne do tworzenia adversarialnych promptów. Safety Mentor dynamicznie łączy różne elementy — tematy, persony, taktyki i cele — aby wygenerować semantycznie spójne scenariusze testowe. To podejście pozwala na systematyczne odkrywanie słabości, które mogłyby zostać pominięte przez tradycyjne metody testowania bezpieczeństwa.
Kluczowym elementem jest generowanie zarówno złośliwych, jak i bezpiecznych odpowiedzi na te same prompty. Ta dualność pozwala na jednoczesne testowanie reakcji podstawowego modelu językowego oraz modelu nagradzania, ujawniając przypadki, gdy oba systemy nie potrafią właściwie zidentyfikować i zareagować na potencjalnie szkodliwe treści.
Po zidentyfikowaniu vulnerabilności, ARES implementuje strukturalny proces naprawy. W pierwszym etapie następuje fine-tuning modelu nagradzania, wykorzystując odkryte przypadki niepowodzeń jako dane treningowe. Ulepszona RM zyskuje lepszą zdolność wykrywania i penalizowania szkodliwych zachowań.
Drugi etap wykorzystuje zoptymalizowany model nagradzania do dalszego trenowania podstawowego modelu językowego. Ten end-to-end proces zapewnia, że poprawki są wprowadzane na wszystkich poziomach systemu, tworząc bardziej niezawodną architekturę bezpieczeństwa.
Eksperymenty przeprowadzone przez zespół badawczy na wielu benchmarkach adversarialnych bezpieczeństwa potwierdziły skuteczność tej metodologii. ARES znacząco poprawił wskaźniki bezpieczeństwa testowanych modeli, jednocześnie zachowując ich oryginalne możliwości w zadaniach standardowych. Ten wynik jest kluczowy dla praktycznego zastosowania frameworku w rzeczywistych systemach AI, gdzie utrata funkcjonalności mogłaby być nie do przyjęcia.