Badacze opracowali system agentów AI zdolny do odtwarzania wyników z nauk społecznych na podstawie samego opisu metodologii i surowych danych.

Źródło zdjęcia: arXiv.org

Społeczny sprzeciw wobec AI rośnie - od przemocy wobec CEO po dane pokazujące, że tylko 23% Amerykanów wierzy w pozytywny wpływ AI na miejsca pracy.

Sztuczna inteligencja umożliwia amatorom przeprowadzanie zaawansowanych ataków. Model Claude Mythos wywołał trzęsienie ziemi w cyberbezpieczeństwie.
Badacze z różnych instytucji akademickich opracowali system agentowy zdolny do reprodukowania wyników badań z nauk społecznych na podstawie samego opisu metodologii i surowych danych. Nowe podejście, opisane w artykule opublikowanym na arXiv, wykracza poza dotychczasowe próby automatyzacji reprodukcji naukowej, które wymagały dostępu zarówno do danych, jak i oryginalnego kodu.
System działa w warunkach całkowitej izolacji informacyjnej — agenty AI nigdy nie widzą oryginalnego kodu, wyników ani treści artykułu, a jedynie opis metodologii i surowe dane. Autorzy przeprowadzili testy na 48 artykułach z weryfikowalną reprodukcją wyników, porównując cztery różne architektury agentów i cztery modele językowe.
Tradycyjne próby automatyzacji reprodukcji wyników naukowych wymagały dostępu zarówno do danych, jak i do oryginalnego kodu źródłowego. Nowy system przełamuje to ograniczenie, ekstrahując ustrukturyzowane opisy metodologii bezpośrednio z publikacji naukowych. Agenty AI implementują następnie te metodologie od podstaw, pracując w ścisłej izolacji informacyjnej.
Kluczowym elementem systemu jest możliwość deterministycznego porównywania odtworzonych wyników z oryginalnymi na poziomie poszczególnych komórek. Dodatkowo, specjalny krok atrybucji błędów śledzi rozbieżności przez cały łańcuch systemowy, umożliwiając identyfikację pierwotnych przyczyn niepowodzeń.
Badacze przetestowali system na 48 artykułach z nauk społecznych, których reprodukcja została wcześniej zweryfikowana przez ludzi. W testach porównano cztery różne architektury agentów oraz cztery modele językowe, ujawniając znaczące różnice w wydajności między poszczególnymi konfiguracjami.
Analiza przyczyn błędów przyniosła szczególnie interesujące odkrycia. Okazało się, że niepowodzenia w reprodukcji wynikają nie tylko z ograczeń agentów AI, ale również z problemów w samych publikacjach naukowych. Wiele artykułów zawiera opisy metodologii, które są zbyt ogólnikowe lub niekompletne, co utrudnia dokładną reprodukcję nawet przez systemy AI.
Wyniki badania mają istotne znaczenie dla debaty nad kryzysem reprodukcji w nauce. System nie tylko demonstruje potencjał automatyzacji procesu reprodukcji, ale także ujawnia systemowe problemy w sposobie opisywania metodologii badawczych w publikacjach naukowych.
Praca zespołu Benjamina Kohlera i współpracowników otwiera nowe możliwości dla weryfikacji wyników badań oraz może przyczynić się do poprawy standardów dokumentacji metodologicznej w nauce. Jednocześnie podkreśla potrzebę bardziej precyzyjnych opisów procedur badawczych w publikacjach naukowych.