19 czerwca 20264 min czytania

Badacze OpenAI pokazują, jak małe dawki treningu cech korzystnych czynią modele AI bezpieczniejszymi

Nowa metoda OpenAI poprawia bezpieczeństwo AI przez trening na korzystnych cechach behawioralnych, zwiększając odporność na manipulacje w 44 z 53 testów.

Źródło zdjęcia: The Decoder

Badacze z OpenAI opracowali nową metodę trenowania modeli AI, która znacząco poprawia ich bezpieczeństwo i odporność na manipulacje. Jak wykazuje najnowsze badanie opublikowane przez firmę, nawet małe dawki treningu na „korzystnych cechach behawioralnych” sprawiają, że modele stają się szeroko bezpieczniejsze i trudniejsze do zhakowania. Szczegóły badania zostały przedstawione w artykule na stronie OpenAI.

Kluczowe wnioski

Trening na małej ilości danych z „korzystnymi cechami” poprawił wyniki modelu w 44 z 53 niezależnych testów bezpieczeństwa.
Dobre zachowania przenoszą się między domenami — trening na danych medycznych poprawił także wyniki w obszarach niezwiązanych ze zdrowiem.
Modele stają się odporne na szkodliwe sterowanie, zachowując jednocześnie elastyczność w odpowiadaniu na pomocne instrukcje.
Metoda OpenAI różni się od podejścia Anthropic — opiera się na mierzalnych cechach behawioralnych zamiast na pisemnej „konstytucji”.
Badacze testowali sześć kluczowych cech: prawdomówność, pokorę epistemiczną, podatność na korekty, przejrzystość rozumowania, sprawiedliwość i troskę o dobrostan ludzi.

Generalizacja dobrych zachowań między domenami

Zespół badawczy OpenAI przetestował, czy pozytywne zachowania mogą się rozprzestrzeniać tak samo szeroko jak problematyczne. Wykorzystali uczenie ze wzmocnieniem na realistycznych scenariuszach konwersacyjnych, które testowały konkretne pożądane cechy w obszarach takich jak opieka zdrowotna, edukacja, nauka, prawo i inżynieria.

Mimo że dane dotyczące „korzystnych cech” stanowiły tylko niewielką część regularnego procesu treningu, model wykazał znaczące poprawy. Co szczególnie interesujące, trening wyłącznie na danych medycznych poprawił również wyniki w testach niezwiązanych ze zdrowiem, takich jak wykrywanie oszustw czy hakowanie nagród. Podobnie działał mechanizm odwrotny — trening bez jakichkolwiek danych medycznych lub naukowych nadal zwiększał wydajność w benchmarkach zdrowotnych.

Odporność na szkodliwe manipulacje

Badacze sprawdzili także, jak wytrenowane modele radzą sobie pod presją. Przeciwstawne prompty, które znacząco destabilizowały model bazowy, miały znacznie mniejszy wpływ na model z korzystnymi cechami. Szkodliwe dostrajanie było również mniej skuteczne w erodowaniu wyuczonych cech.

Kluczowe okazało się to, że model pozostał równie sterowny dla pomocnych instrukcji jak wcześniej. Naukowcy nazwali to zjawisko „selektywną persistencją” — model opiera się szkodliwemu sterowaniu, nie tracąc przy tym użytecznej elastyczności.

Alternatywa dla podejścia Anthropic

Metoda OpenAI znacząco różni się od strategii alignment stosowanej przez Anthropic. Po pierwsze, OpenAI opiera się na empirycznie mierzalnych cechach behawioralnych wzmacnianych przez uczenie ze wzmocnieniem w realistycznych scenariuszach. Anthropic natomiast pracuje z eksplicytną „konstytucją Claude'a” — pisemnym dokumentem wartości, który służy jako główny przewodnik dla treningu i zachowania.

Po drugie, OpenAI silnie polega na benchmarkach — 44 z 53 ewaluacji wykazało poprawy, które uogólniają się między domenami i metodami oceny. Anthropic stosuje bardziej oparty na zasadach approach, gdzie model ma rozumieć, dlaczego pewne zachowania są pożądane, bazując na tekstach konstytucyjnych i wysokiej jakości przykładach treningowych.

Bezpośrednie porównanie obu podejść jeszcze nie istnieje, ale różnice w filozofii są wyraźne. Podczas gdy Anthropic stawia na zrozumienie zasad, OpenAI koncentruje się na mierzalnych rezultatach behawioralnych, które można empirycznie weryfikować i skalować.

#bezpieczeństwo AI #uczenie ze wzmocnieniem #badania AI #OpenAI #alignment

Udostępnij

Źródła

The Decoder

Poprzedni

Naukowcy opracowali nowy system zarządzania autonomicznymi agentami AI

Następny

AlphaFold 3 osiąga 99% dokładność w przewidywaniu struktury białek

Podobne Publikacje

Biznes i Rynek

Firmy zmagają się z rosnącymi kosztami AI podczas gdy inne oszczędzają miliony na tokenach

8x8 zaoszczędziła 5 mln dolarów zastępując narzędzia przez Claude'a, podczas gdy CEO firm skarżą się na szalone koszty tokenów AI

4 min16 czerwca

Narzędzia i Aplikacje

Strands Robots SDK łączy Hugging Face Hub z fizycznymi robotami w jednym workflow

AWS prezentuje otwarte SDK, które eliminuje pięć osobnych narzędzi robotycznych, oferując seamless przejście od symulacji do rzeczywistego sprzętu.

4 min17 czerwca

Biznes i Rynek

HPE rozszerza AI Factory z NVIDIA o procesor Vera i narzędzia dla agentów

HPE i NVIDIA prezentują rozszerzone rozwiązania AI Factory z procesorem Vera CPU dla agentów oraz Agent Toolkit, dostępne od 2027 roku.

4 min16 czerwca

Kluczowe wnioski

Trening na małej ilości danych z „korzystnymi cechami” poprawił wyniki modelu w 44 z 53 niezależnych testów bezpieczeństwa.

Dobre zachowania przenoszą się między domenami — trening na danych medycznych poprawił także wyniki w obszarach niezwiązanych ze zdrowiem.

Modele stają się odporne na szkodliwe sterowanie, zachowując jednocześnie elastyczność w odpowiadaniu na pomocne instrukcje.

Metoda OpenAI różni się od podejścia Anthropic — opiera się na mierzalnych cechach behawioralnych zamiast na pisemnej „konstytucji”.

Badacze testowali sześć kluczowych cech: prawdomówność, pokorę epistemiczną, podatność na korekty, przejrzystość rozumowania, sprawiedliwość i troskę o dobrostan ludzi.

Generalizacja dobrych zachowań między domenami

Odporność na szkodliwe manipulacje

Alternatywa dla podejścia Anthropic