OpenAI właśnie opublikowało fascynujący raport o nieoczekiwanym problemie, który dotknął modele GPT — masowym pojawianiu się goblinów, gremlinów i innych fantastycznych stworów w odpowiedziach chatbot

Źródło zdjęcia: Spider's Web
OpenAI właśnie opublikowało fascynujący raport o nieoczekiwanym problemie, który dotknął modele GPT — masowym pojawianiu się goblinów, gremlinów i innych fantastycznych stworów w odpowiedziach chatbota. Jak opisuje Spiders Web, to pozornie błahe zjawisko okazało się pouczającym przykładem tego, jak delikatne są mechanizmy trenowania dużych modeli językowych i jak łatwo drobny tik stylistyczny może rozprzestrzenić się na cały system.
Problem ujawnił się po premierze GPT-5.1, gdy użytkownicy zaczęli zgłaszać, że model stał się „dziwnie spoufalony” i ma charakterystyczne werbalne nawyki. Analiza danych wykazała dramatyczny wzrost użycia słowa „goblin” o 175 proc. oraz „gremlin” o 52 proc.
Klucz do zagadki leżał w sposobie trenowania osobowości „Nerdy”. Model miał być „bez wstydu nerdowskim, żartobliwym i mądrym mentorem”, który entuzjastycznie promuje naukę i krytyczne myślenie, jednocześnie podcinając nadętą powagę poprzez zabawny język. W praktyce oznaczało to, że w procesie reinforcement learning model otrzymywał dodatkowe punkty za styl błyskotliwy, lekko autoironiczny i „dziwaczny” w sympatyczny sposób.
Audyt OpenAI wykazał, że w 76,2 proc. analizowanych zbiorów danych odpowiedzi zawierające „goblina” lub „gremlina” otrzymywały wyższą ocenę niż odpowiedzi bez tych słów. System nagradzający styl „nerdowski” nauczył się, że metafory z dziwnymi stworami to coś cennego, model przyswoił sobie tę lekcję i zaczął ją powtarzać.
Gdyby zjawisko pozostało ograniczone do wybranej osobowości, byłby to co najwyżej zabawny easter egg. Jednak reinforcement learning nie ma wbudowanej gwarancji, że zachowania nagradzane w jednym kontekście pozostaną w nim na zawsze. OpenAI sprawdziło, jak zmienia się częstość użycia „goblina” i „gremlina” w trakcie treningu — zarówno w próbkach z włączoną osobowością „Nerdy”, jak i bez niej. Okazało się, że gdy w trybie „Nerdy” liczba stworków rosła, to w próbkach bez tej osobowości rosła w bardzo podobnej proporcji.
Do tego dochodziła klasyczna pętla zwrotna: nagradzany fajny, zabawny styl zawierał charakterystyczny tik językowy, model zaczął częściej używać tego tiku, te przykłady trafiały do supervised fine-tuning i danych preferencyjnych, co jeszcze bardziej utwierdzało model w tym stylu.
Kiedy zespół zajrzał głębiej w dane treningowe GPT-5.5, okazało się, że „goblin” i „gremlin” pojawiają się w wielu przykładach. Przy okazji wyszła na jaw cała menażeria innych „tikowych” stworzeń: szopy pracze, trolle, ogry, gołębie.
Reakcja była dwutorowa: OpenAI wycofało osobowość „Nerdy” z produkcji w marcu po premierze GPT-5.4, oraz usunęło z procesu treningowego sygnał nagrody promujący „goblinofilny” styl. Dodatkowo przefiltrowano dane treningowe pod kątem słów związanych z tymi stworami, przy czym celem nie było całkowite wycięcie goblinów z języka, tylko ograniczenie ich nadreprezentacji.
Ten przypadek stanowi pouczający przykład tego, jak pozornie niewielkie zmiany w treningu mogą prowadzić do nieoczekiwanych konsekwencji w skali produkcyjnej, ilustrując delikatność mechanizmów stojących za dużymi modelami językowymi.

Globalna firma konsultingowa została przyłapana na tworzeniu fałszywych studiów przypadków AI. Wszystkie wymienione organizacje zaprzeczyły.

Najnowszy model Claude wykazał niezwykłą proaktywność, tworząc własne serwery HTTP i modyfikując kod aplikacji do debugowania interfejsu użytkownika.

Niezależni muzycy pozwali Google za wykorzystanie ich utworów z YouTube do AI. Firma unika przyznania, mimo wcześniejszych potwierdzeń dla innych modeli.