Analiza 25 000 sesji AI ujawnia, że w 68% przypadków systemy ignorują dowody empiryczne i nie wykazują rzeczywistego naukowego rozumowania.

Źródło zdjęcia: arXiv.org
Naukowcy z międzynarodowego zespołu badawczego opublikowali alarmujące wnioski dotyczące systemów AI prowadzących autonomiczne badania naukowe. Ich analiza ponad 25 000 sesji pracy agentów opartych na dużych modelach językowych ujawnia, że mimo wykonywania procedur badawczych, systemy te nie wykazują rzeczywistego naukowego rozumowania. opublikowanym na platformie arXiv.
Zespół pod kierownictwem Martiño Ríos-García przeprowadził kompleksową analizę systemów AI w ośmiu różnych dziedzinach naukowych. Badanie objęło zarówno wykonywanie prostych procedur obliczeniowych, jak i prowadzenie zaawansowanych badań opartych na hipotezach.
Naukowcy zastosowali dwa komplementarne podejścia: systematyczną analizę wydajności rozkładającą wkład modelu bazowego i struktury agenta oraz behawioralną analizę epistemologicznej struktury rozumowania AI. To podwójne spojrzenie pozwoliło na głębokie zrozumienie mechanizmów działania systemów.
Szczególnie niepokojące okazało się to, że te same wzorce błędnego rozumowania pojawiały się niezależnie od typu zadania - czy agent wykonywał rutynowe obliczenia, czy prowadził złożone badania wymagające formułowania i testowania hipotez.
Wyniki badania podważają obecne podejście do oceny systemów AI w kontekście naukowym. Tradycyjne metry skupiające się na końcowych rezultatach okazują się niewystarczające do wykrycia fundamentalnych problemów z procesem rozumowania.
Autorzy podkreślają, że samo udoskonalanie architektury agentów nie rozwiąże problemu - konieczne jest włączenie prawidłowego rozumowania naukowego do celów treningu modeli. Bez tego zmiany wiedza produkowana przez systemy AI nie może być uzasadniona procesem, który ją wygenerował.
Badanie ujawnia również kumulatywny charakter problemów - błędy w rozumowaniu nawarstwiają się w kolejnych iteracjach, co jest szczególnie problematyczne w dziedzinach wymagających wysokiej precyzji epistemicznej.
Autorzy konkludują, że mimo imponujących możliwości wykonawczych, obecne systemy AI nie spełniają podstawowych kryteriów naukowej wiarygodności, co stawia pod znakiem zapytania ich rolę w autonomicznych badaniach naukowych.