Naukowcy podważają dotychczasowe dowody na samoświadomość AI. Modele mylą manipulacje stanów wewnętrznych z anomaliami w danych wejściowych.

Źródło zdjęcia: arXiv.org
Nowe badania kwestionują powszechne przekonanie o zdolnościach introspekcyjnych dużych modeli językowych. Naukowcy z zespołu Shashwata Singha, Tala Linzena i Shauli Ravfogela opublikowali na arXiv pracę, która podważa dotychczasowe dowody na samoświadomość AI.
Autorzy argumentują, że wcześniejsze badania mogły pomylić rzeczywistą introspekcję z rozpoznawaniem wzorców na podstawie powierzchownych wskazówek. Ich eksperymenty pokazują, że modele często nie potrafią odróżnić manipulacji własnych stanów wewnętrznych od zwykłych zmian w danych wejściowych.
Zespół przeanalizował dwa główne paradygmaty oceny stosowane w dotychczasowych badaniach nad introspektywnością AI. W pierwszym podejściu modele miały wykrywać, czy ich wewnętrzne stany zostały zmanipulowane. Eksperymenty wykazały jednak, że systemy AI nie potrafią rozróżnić takich interwencji od zwykłych manipulacji danych wejściowych.
Drugi paradygmat polegał na przewidywaniu przez modele etykiet pochodzących z ich własnych ukrytych stanów. Badacze odkryli, że zewnętrzne klasyfikatory, które miały dostęp tylko do danych wejściowych, osiągały podobną wydajność jak predykcje modeli oparte na kontekście. To sugeruje, że oryginalne wyniki nie dowodzą uprzywilejowanego dostępu modelu do własnych reprezentacji wewnętrznych.
Naukowcy wprowadzili również kontrolne środowisko z przeetykietowanymi danymi, gdzie modele nie mogą polegać na semantyce zadania i muszą bazować wyłącznie na wewnętrznej reprezentacji. W tej bardziej rygorystycznej wersji testu wyniki modeli zbliżyły się do poziomu przypadku.
Autorzy podkreślają, że ich wnioski bazują na lekcjach z badań nad metakognitywnością człowieka. Aby udowodnić rzeczywistą introspekcję, konieczne jest odróżnienie jej od prostego dopasowywania wzorców opartego na powierzchownych wskazówkach.
Badanie stawia pod znakiem zapytania obecny stan wiedzy o samoświadomości sztucznej inteligencji i wskazuje na potrzebę bardziej rygorystycznych metodologii w przyszłych eksperymentach dotyczących metacognitive monitoring u dużych modeli językowych.

AI startup Suno pozyskał 400 mln dolarów przy wycenie 5,4 mld, stając się liderem AI muzyki. Ma 2 mln subskrybentów, ale walczy w sądzie z Universal i Sony.
Bezpardonowa analiza stanu przemysłu AI — dlaczego chińskie modele jak Qwen 3.7 Max wypierają amerykańskich gigantów i jak firmy tracą miliony na AI.

Prezydent wprowadził dobrowolny 30-dniowy przegląd modeli AI zamiast pierwotnych 90 dni po naciskach firm technologicznych i Davida Sacksa.