Nowe badania pokazują, że usprawnienia ToM w modelach AI nie gwarantują lepszych rzeczywistych interakcji człowiek-komputer.

Źródło zdjęcia: arXiv.org
Nowe badania kwestionują skuteczność poprawy zdolności „teorii umysłu” w dużych modelach językowych dla rzeczywistych interakcji z ludźmi. Zespół naukowców przeprowadził systematyczne analizy czterech technik usprawniania ToM, wykorzystując zarówno rzeczywiste zbiory danych, jak i badania z udziałem użytkowników. Pełne wyniki badań dostępne są w publikacji naukowej opublikowanej na arXiv przez zespół pod kierunkiem Nanxu Gong.
Teoria umysłu (Theory of Mind, ToM) to kluczowa zdolność poznawcza pozwalająca na rozumienie stanów mentalnych innych osób — ich przekonań, intencji, emocji i motywacji. W kontekście sztucznej inteligencji, usprawnienie tej zdolności u dużych modeli językowych ma fundamentalne znaczenie dla efektywnych interakcji społecznych między systemami AI a ludźmi.
Dotychczasowe benchmarki oceniające ToM w LLM opierały się głównie na zadaniach polegających na czytaniu historii i odpowiadaniu na pytania wielokrotnego wyboru z perspektywy obserwatora. Takie podejście nie odzwierciedla jednak rzeczywistego charakteru interakcji człowiek-AI, które są dynamiczne, pierwszoosobowe i wymagają otwartych odpowiedzi.
Autorzy badania zaproponowali nowy paradygmat oceny ToM, który uwzględnia zarówno zmianę perspektywy, jak i metryki oceny. Podejście to koncentruje się na bezpośrednim badaniu tego, jak techniki usprawniania teorii umysłu wpływają na praktyczne interakcje między ludźmi a systemami AI.
W ramach systematycznego badania przeanalizowano cztery reprezentatywne techniki usprawniania ToM, testując je na czterech rzeczywistych zbiorach danych oraz przeprowadzając badania z udziałem użytkowników. Eksperymenty obejmowały różnorodne typy zadań — od zorientowanych na osiągnięcie konkretnych celów (takich jak programowanie czy rozwiązywanie problemów matematycznych) po zadania skupione na doświadczeniu użytkownika (jak doradztwo psychologiczne).
Wyniki badania ujawniają znaczącą lukę między teoretycznymi ulepszeniami a praktyczną użytecznością. Okazuje się, że modele, które osiągają lepsze wyniki w standardowych testach ToM, niekoniecznie zapewniają lepsze doświadczenia w rzeczywistych zastosowaniach interaktywnych.
Odkrycie to ma kluczowe znaczenie dla przyszłego rozwoju społecznie świadomych systemów AI. Wskazuje na konieczność opracowania nowych metod oceny, które lepiej odzwierciedlają złożoność rzeczywistych interakcji człowiek-AI i mogą służyć jako wiarygodne wskaźniki praktycznej użyteczności usprawnień ToM.
Badanie dostarcza krytycznych spostrzeżeń dotyczących oceny teorii umysłu w AI, podkreślając niezbędność zastosowania ocen opartych na interakcji w rozwoju następnej generacji LLM przeznaczonych do symbiozy z ludźmi.

UC Berkeley Law zakazuje używania AI w pracach studenckich od lata 2026. Dozwolone tylko wyszukiwanie prawne, za które studenci ponoszą pełną odpowiedzialność.

Nowy model Google potrafi przekształcać zdjęcia i filmy w realistyczne deepfake'i. Test pokazał, że jakość jest na tyle wysoka, że oszukała męża dziennikarki.

Analiza Google I/O ujawnia przesunięcie priorytetów firmy od narzędzi jak AlphaFold w kierunku systemów agentowych zdolnych do samodzielnych badań.