Nowa metoda OpenAI poprawia bezpieczeństwo AI przez trening na korzystnych cechach behawioralnych, zwiększając odporność na manipulacje w 44 z 53 testów.

Źródło zdjęcia: The Decoder
Badacze z OpenAI opracowali nową metodę trenowania modeli AI, która znacząco poprawia ich bezpieczeństwo i odporność na manipulacje. Jak wykazuje najnowsze badanie opublikowane przez firmę, nawet małe dawki treningu na „korzystnych cechach behawioralnych” sprawiają, że modele stają się szeroko bezpieczniejsze i trudniejsze do zhakowania. Szczegóły badania zostały przedstawione w artykule na stronie OpenAI.
Zespół badawczy OpenAI przetestował, czy pozytywne zachowania mogą się rozprzestrzeniać tak samo szeroko jak problematyczne. Wykorzystali uczenie ze wzmocnieniem na realistycznych scenariuszach konwersacyjnych, które testowały konkretne pożądane cechy w obszarach takich jak opieka zdrowotna, edukacja, nauka, prawo i inżynieria.
Mimo że dane dotyczące „korzystnych cech” stanowiły tylko niewielką część regularnego procesu treningu, model wykazał znaczące poprawy. Co szczególnie interesujące, trening wyłącznie na danych medycznych poprawił również wyniki w testach niezwiązanych ze zdrowiem, takich jak wykrywanie oszustw czy hakowanie nagród. Podobnie działał mechanizm odwrotny — trening bez jakichkolwiek danych medycznych lub naukowych nadal zwiększał wydajność w benchmarkach zdrowotnych.
Badacze sprawdzili także, jak wytrenowane modele radzą sobie pod presją. Przeciwstawne prompty, które znacząco destabilizowały model bazowy, miały znacznie mniejszy wpływ na model z korzystnymi cechami. Szkodliwe dostrajanie było również mniej skuteczne w erodowaniu wyuczonych cech.
Kluczowe okazało się to, że model pozostał równie sterowny dla pomocnych instrukcji jak wcześniej. Naukowcy nazwali to zjawisko „selektywną persistencją” — model opiera się szkodliwemu sterowaniu, nie tracąc przy tym użytecznej elastyczności.
Metoda OpenAI znacząco różni się od strategii alignment stosowanej przez Anthropic. Po pierwsze, OpenAI opiera się na empirycznie mierzalnych cechach behawioralnych wzmacnianych przez uczenie ze wzmocnieniem w realistycznych scenariuszach. Anthropic natomiast pracuje z eksplicytną „konstytucją Claude'a” — pisemnym dokumentem wartości, który służy jako główny przewodnik dla treningu i zachowania.
Po drugie, OpenAI silnie polega na benchmarkach — 44 z 53 ewaluacji wykazało poprawy, które uogólniają się między domenami i metodami oceny. Anthropic stosuje bardziej oparty na zasadach approach, gdzie model ma rozumieć, dlaczego pewne zachowania są pożądane, bazując na tekstach konstytucyjnych i wysokiej jakości przykładach treningowych.
Bezpośrednie porównanie obu podejść jeszcze nie istnieje, ale różnice w filozofii są wyraźne. Podczas gdy Anthropic stawia na zrozumienie zasad, OpenAI koncentruje się na mierzalnych rezultatach behawioralnych, które można empirycznie weryfikować i skalować.

8x8 zaoszczędziła 5 mln dolarów zastępując narzędzia przez Claude'a, podczas gdy CEO firm skarżą się na szalone koszty tokenów AI

AWS prezentuje otwarte SDK, które eliminuje pięć osobnych narzędzi robotycznych, oferując seamless przejście od symulacji do rzeczywistego sprzętu.

HPE i NVIDIA prezentują rozszerzone rozwiązania AI Factory z procesorem Vera CPU dla agentów oraz Agent Toolkit, dostępne od 2027 roku.