1 maja 20263 min czytania

ChatGPT ma poważny problem z goblinami. To nie metafora

Źródło zdjęcia: Spider's Web

OpenAI właśnie opublikowało fascynujący raport o nieoczekiwanym problemie, który dotknął modele GPT — masowym pojawianiu się goblinów, gremlinów i innych fantastycznych stworów w odpowiedziach chatbota. Jak opisuje Spiders Web, to pozornie błahe zjawisko okazało się pouczającym przykładem tego, jak delikatne są mechanizmy trenowania dużych modeli językowych i jak łatwo drobny tik stylistyczny może rozprzestrzenić się na cały system.

Problem ujawnił się po premierze GPT-5.1, gdy użytkownicy zaczęli zgłaszać, że model stał się „dziwnie spoufalony” i ma charakterystyczne werbalne nawyki. Analiza danych wykazała dramatyczny wzrost użycia słowa „goblin” o 175 proc. oraz „gremlin” o 52 proc.

Kluczowe wnioski

Źródłem problemu była personalizacja o nazwie „Nerdy”, trenowana pod kątem zabawnego, nerdowskiego stylu wypowiedzi, która nieoczekiwanie promowała używanie metafor ze stworami.
Mimo że tryb „Nerdy” odpowiadał za zaledwie 2,5 proc. wszystkich odpowiedzi ChatGPT, generował aż 66,7 proc. wszystkich wzmianek o goblinach.
Zjawisko rozprzestrzeniło się poza oryginalny kontekst — gobliny zaczęły pojawiać się także w zwykłych rozmowach bez włączonej osobowości „Nerdy”.
OpenAI wycofało problematyczną osobowość z produkcji w marcu oraz przefiltrowano dane treningowe, aby ograniczyć nadreprezentację fantastycznych stworów.
Przypadek ilustruje klasyczną pętlę zwrotną w uczeniu maszynowym, gdzie nagradzane zachowania mogą się niekontrolowanie rozprzestrzenić na cały system.

Mechanizm powstawania problemu

Klucz do zagadki leżał w sposobie trenowania osobowości „Nerdy”. Model miał być „bez wstydu nerdowskim, żartobliwym i mądrym mentorem”, który entuzjastycznie promuje naukę i krytyczne myślenie, jednocześnie podcinając nadętą powagę poprzez zabawny język. W praktyce oznaczało to, że w procesie reinforcement learning model otrzymywał dodatkowe punkty za styl błyskotliwy, lekko autoironiczny i „dziwaczny” w sympatyczny sposób.

Audyt OpenAI wykazał, że w 76,2 proc. analizowanych zbiorów danych odpowiedzi zawierające „goblina” lub „gremlina” otrzymywały wyższą ocenę niż odpowiedzi bez tych słów. System nagradzający styl „nerdowski” nauczył się, że metafory z dziwnymi stworami to coś cennego, model przyswoił sobie tę lekcję i zaczął ją powtarzać.

Rozprzestrzenianie się poza pierwotny kontekst

Gdyby zjawisko pozostało ograniczone do wybranej osobowości, byłby to co najwyżej zabawny easter egg. Jednak reinforcement learning nie ma wbudowanej gwarancji, że zachowania nagradzane w jednym kontekście pozostaną w nim na zawsze. OpenAI sprawdziło, jak zmienia się częstość użycia „goblina” i „gremlina” w trakcie treningu — zarówno w próbkach z włączoną osobowością „Nerdy”, jak i bez niej. Okazało się, że gdy w trybie „Nerdy” liczba stworków rosła, to w próbkach bez tej osobowości rosła w bardzo podobnej proporcji.

Do tego dochodziła klasyczna pętla zwrotna: nagradzany fajny, zabawny styl zawierał charakterystyczny tik językowy, model zaczął częściej używać tego tiku, te przykłady trafiały do supervised fine-tuning i danych preferencyjnych, co jeszcze bardziej utwierdzało model w tym stylu.

Reakcja i rozwiązanie

Kiedy zespół zajrzał głębiej w dane treningowe GPT-5.5, okazało się, że „goblin” i „gremlin” pojawiają się w wielu przykładach. Przy okazji wyszła na jaw cała menażeria innych „tikowych” stworzeń: szopy pracze, trolle, ogry, gołębie.

Reakcja była dwutorowa: OpenAI wycofało osobowość „Nerdy” z produkcji w marcu po premierze GPT-5.4, oraz usunęło z procesu treningowego sygnał nagrody promujący „goblinofilny” styl. Dodatkowo przefiltrowano dane treningowe pod kątem słów związanych z tymi stworami, przy czym celem nie było całkowite wycięcie goblinów z języka, tylko ograniczenie ich nadreprezentacji.

Ten przypadek stanowi pouczający przykład tego, jak pozornie niewielkie zmiany w treningu mogą prowadzić do nieoczekiwanych konsekwencji w skali produkcyjnej, ilustrując delikatność mechanizmów stojących za dużymi modelami językowymi.

Udostępnij

Źródła

Spider's Web

Poprzedni

ChatGPT Images 2.0 hitem w Indiach, ale globalna reakcja pozostaje umiarkowana

Następny

GPT-5.5 dorównuje Claude Mythos w testach cyberataków według brytyjskiego Instytutu Bezpieczeństwa AI

Podobne Publikacje

Biznes i Rynek

KPMG sfabrykowała studia przypadków AI w raporcie dla klientów

Globalna firma konsultingowa została przyłapana na tworzeniu fałszywych studiów przypadków AI. Wszystkie wymienione organizacje zaprzeczyły.

3 min14 czerwca

Modele AI

Claude Fable 5 samodzielnie tworzy narzędzia do automatyzacji przeglądarki

Najnowszy model Claude wykazał niezwykłą proaktywność, tworząc własne serwery HTTP i modyfikując kod aplikacji do debugowania interfejsu użytkownika.

4 min12 czerwca

Etyka i Bezpieczeństwo

Google milczy w sprawie wykorzystania treści YouTube do trenowania AI muzycznej Lyria

Niezależni muzycy pozwali Google za wykorzystanie ich utworów z YouTube do AI. Firma unika przyznania, mimo wcześniejszych potwierdzeń dla innych modeli.

3 min10 czerwca

Kluczowe wnioski

Źródłem problemu była personalizacja o nazwie „Nerdy”, trenowana pod kątem zabawnego, nerdowskiego stylu wypowiedzi, która nieoczekiwanie promowała używanie metafor ze stworami.

Mimo że tryb „Nerdy” odpowiadał za zaledwie 2,5 proc. wszystkich odpowiedzi ChatGPT, generował aż 66,7 proc. wszystkich wzmianek o goblinach.

Zjawisko rozprzestrzeniło się poza oryginalny kontekst — gobliny zaczęły pojawiać się także w zwykłych rozmowach bez włączonej osobowości „Nerdy”.

OpenAI wycofało problematyczną osobowość z produkcji w marcu oraz przefiltrowano dane treningowe, aby ograniczyć nadreprezentację fantastycznych stworów.

Przypadek ilustruje klasyczną pętlę zwrotną w uczeniu maszynowym, gdzie nagradzane zachowania mogą się niekontrolowanie rozprzestrzenić na cały system.

Mechanizm powstawania problemu

Rozprzestrzenianie się poza pierwotny kontekst

Reakcja i rozwiązanie