Naukowcy zidentyfikowali mechanizmy powodujące, że LLM-y niepotrzebnie sięgają po zewnętrzne narzędzia zamiast wykorzystywać wewnętrzną wiedzę.

Źródło zdjęcia: arXiv.org
Zespół naukowców z międzynarodowego konsorcjum badawczego zidentyfikował zjawisko nadmiernego wykorzystywania zewnętrznych narzędzi przez duże modele językowe, które często sięgają po dodatkowe zasoby nawet gdy posiadają odpowiednią wiedzę wewnętrzną. Badanie opublikowane w arXiv rzuca nowe światło na mechanizmy decyzyjne AI i proponuje konkretne rozwiązania problemu.
Autorzy pracy, na czele z Yirong Zeng, przeprowadzili szczegółową analizę zachowań różnych LLM-ów w kontekście wykorzystania zewnętrznych narzędzi. Ich odkrycia wskazują na systematyczne błędy w ocenie własnych możliwości przez modele AI oraz problematyczne struktury nagradzania podczas treningu.
Badacze zidentyfikowali dwa główne mechanizmy prowadzące do zjawiska "iluzji nadużywania narzędzi". Pierwszy z nich dotyczy błędnej oceny własnej wiedzy przez modele AI. Poprzez analizę zachowań związanych z wykorzystaniem narzędzi w różnych obszarach dostępności wiedzy wewnętrznej, naukowcy odkryli, że modele systematycznie błędnie oceniają granice swojej wiedzy i nie potrafią precyzyjnie określić rzeczywistej dostępności informacji.
W odpowiedzi na ten problem zespół opracował strategię wyrównywania granic epistemicznych opartą na optymalizacji preferencji bezpośrednich. To podejście pozwoliło zmniejszyć wykorzystanie narzędzi o 82,8% przy jednoczesnym osiągnięciu poprawy dokładności, co dowodzi skuteczności tej metody.
Drugi mechanizm związany jest ze strukturami nagród stosowanymi podczas treningu. Badacze ustanowili przyczynowy związek między strukturami nagród a zachowaniami związanymi z wykorzystaniem narzędzi poprzez wizualizację procesu treningu wspomaganego narzędziami. Analiza wykazała, że nagrody oparte wyłącznie na wynikach nieumyślnie zachęcają do nadużywania narzędzi, premiując jedynie końcową poprawność bez względu na efektywność wykorzystania narzędzi.
Aby zweryfikować to odkrycie, naukowcy wprowadzili zbalansowane sygnały nagród podczas treningu zamiast polegania wyłącznie na nagrodach opartych na wynikach. Takie podejście pozwoliło ograniczyć niepotrzebne wywołania narzędzi o 66,7% w przypadku modeli 7B i o 60,7% w przypadku modeli 32B, jednocześnie zachowując dokładność na poprzednim poziomie.
Praca dostarcza teoretycznego uzasadnienia dla obu zidentyfikowanych mechanizmów nadużywania narzędzi, oferując głębsze zrozumienie tego zjawiska. 17-stronicowe badanie zawiera 9 ilustracji dokumentujących szczegółowe analizy i eksperymenty przeprowadzone przez zespół 12 naukowców.
Odkrycia te mają istotne znaczenie dla przyszłego rozwoju systemów AI wyposażonych w zewnętrzne narzędzia. Zrozumienie mechanizmów prowadzących do nieefektywnego wykorzystania zasobów może przyczynić się do tworzenia bardziej zrównoważonych i ekonomicznych rozwiązań AI, które lepiej balansują między wykorzystaniem wiedzy wewnętrznej a sięganiem po zewnętrzne wsparcie.