27 maja 20263 min czytania

Nowe badania kwestionują zdolności introspekcyjne dużych modeli językowych

Naukowcy podważają dotychczasowe dowody na samoświadomość AI. Modele mylą manipulacje stanów wewnętrznych z anomaliami w danych wejściowych.

Źródło zdjęcia: arXiv.org

Nowe badania kwestionują powszechne przekonanie o zdolnościach introspekcyjnych dużych modeli językowych. Naukowcy z zespołu Shashwata Singha, Tala Linzena i Shauli Ravfogela opublikowali na arXiv pracę, która podważa dotychczasowe dowody na samoświadomość AI.

Autorzy argumentują, że wcześniejsze badania mogły pomylić rzeczywistą introspekcję z rozpoznawaniem wzorców na podstawie powierzchownych wskazówek. Ich eksperymenty pokazują, że modele często nie potrafią odróżnić manipulacji własnych stanów wewnętrznych od zwykłych zmian w danych wejściowych.

Kluczowe wnioski

Modele językowe nie potrafią niezawodnie wykryć ingerencji w swoje stany wewnętrzne, mylą je z anomaliami w danych wejściowych.
Klasyfikatory oparte wyłącznie na inputach osiągają podobną wydajność do predykcji modeli opartych na własnych reprezentacjach wewnętrznych.
W kontrolowanych eksperymentach, gdzie modele nie mogą polegać na semantyce zadania, ich wyniki spadają do poziomu przypadku.
Dowody behawioralne same w sobie są niewystarczające do udowodnienia zdolności introspekcyjnych AI.
Obecne badania nie dostarczają przekonujących dowodów na metacognitive monitoring u LLM-ów.

Metodologia badań

Zespół przeanalizował dwa główne paradygmaty oceny stosowane w dotychczasowych badaniach nad introspektywnością AI. W pierwszym podejściu modele miały wykrywać, czy ich wewnętrzne stany zostały zmanipulowane. Eksperymenty wykazały jednak, że systemy AI nie potrafią rozróżnić takich interwencji od zwykłych manipulacji danych wejściowych.

Drugi paradygmat polegał na przewidywaniu przez modele etykiet pochodzących z ich własnych ukrytych stanów. Badacze odkryli, że zewnętrzne klasyfikatory, które miały dostęp tylko do danych wejściowych, osiągały podobną wydajność jak predykcje modeli oparte na kontekście. To sugeruje, że oryginalne wyniki nie dowodzą uprzywilejowanego dostępu modelu do własnych reprezentacji wewnętrznych.

Implikacje dla przyszłych badań

Naukowcy wprowadzili również kontrolne środowisko z przeetykietowanymi danymi, gdzie modele nie mogą polegać na semantyce zadania i muszą bazować wyłącznie na wewnętrznej reprezentacji. W tej bardziej rygorystycznej wersji testu wyniki modeli zbliżyły się do poziomu przypadku.

Autorzy podkreślają, że ich wnioski bazują na lekcjach z badań nad metakognitywnością człowieka. Aby udowodnić rzeczywistą introspekcję, konieczne jest odróżnienie jej od prostego dopasowywania wzorców opartego na powierzchownych wskazówkach.

Badanie stawia pod znakiem zapytania obecny stan wiedzy o samoświadomości sztucznej inteligencji i wskazuje na potrzebę bardziej rygorystycznych metodologii w przyszłych eksperymentach dotyczących metacognitive monitoring u dużych modeli językowych.

#introspekcja AI #LLM #samoświadomość AI #badania naukowe #metacognitive monitoring

Udostępnij

Źródła

arXiv AI

Poprzedni

BrickAnything: AI przekształca obiekty 3D w fizycznie wykonalne konstrukcje z klocków

Następny

Najlepsze modele AI osiągają poniżej 50% w pierwszym benchmarku zadań IT przedsiębiorstw

Podobne Publikacje

Biznes i Rynek

Wistron otwiera fabrykę superchipów NVIDIA za 700 mln dolarów w Teksasie

Tajwańska firma Wistron uruchomiła pierwszą amerykańską fabrykę w Fort Worth, produkującą superchipy AI NVIDIA za 700 mln dolarów.

4 min22 lipca

Etyka i Bezpieczeństwo

Biały Dom podzielony ws. reakcji na chińskie modele AI konkurujące z amerykańskimi

Administracja Trumpa szuka sposobów na ograniczenie rozwoju chińskiej AI po wydaniu modelu Kimi K3, który konkuruje z rozwiązaniami Anthropic i OpenAI.

4 min23 lipca

Poradniki

Jak działają nowe limity Gemini AI od Google i jak sprawdzać wykorzystanie

Google zmienił sposób naliczania limitów Gemini AI z liczby zapytań na moc obliczeniową, wprowadzając cztery plany płatne i nowe zasady sprawdzania użycia.

4 min18 lipca