Nowe badanie ujawnia słabość agentów AI w kodowaniu — pokrywają tylko 14–19% istotnych linijek kodu, choć dobrze radzą sobie z wyszukiwaniem plików.

Źródło zdjęcia: The Decoder
Międzynarodowy zespół badawczy z Uniwersytetu Shanghai Jiao Tong ujawnił poważny problem w działaniu agentów AI do kodowania. Nowe badanie pokazuje, że choć systemy sztucznej inteligencji potrafią odnaleźć odpowiednie pliki z kodem, to mają trudności z precyzyjnym wskazaniem konkretnych linijek, które wymagają naprawy. Szczegóły badania zostały opublikowane w raporcie na The Decoder.
Zespół badawczy stanął przed trudnym wyzwaniem: jak określić, które fragmenty kodu są rzeczywiście istotne dla rozwiązania danego problemu? Zamiast ręcznego oznaczania, naukowcy zastosowali innowacyjne podejście oparte na analizie udanych napraw.
Dla każdego z 848 problemów w zbiorze danych istniały co najmniej dwa udane rozwiązania wykonane przez zaawansowane modele, takie jak GPT-5.4, Gemini 3 Pro, Claude Sonnet 4.6 czy Kimi K2.6. Badacze wyekstraktowali z tych przebiegów informacje o tym, które pliki i linie kod faktycznie analizowały przed naprawą błędu.
Fragmenty, na których zbiegły się niezależne ścieżki rozwiązania, zostały uznane za sygnał użytecznego kontekstu. Dodatkowy etap weryfikacji uzupełnił kluczowe fragmenty, a zespół przeprowadził następnie ręczny przegląd każdego regionu.
Porównanie objęło tradycyjne metody wyszukiwania oraz pięć agentów kodowania ogólnego przeznaczenia, w tym Claude Code, Codex i OpenHands, a także cztery systemy badawcze zaprojektowane specjalnie do wyszukiwania w kodzie.
Tradycyjne wyszukiwanie słów kluczowych ledwo przewyższa przypadek. Badacze pokazują dlaczego na konkretnym przykładzie: opis błędu jak „RuntimeWarning on Overflow” zawiera terminy, które pojawiają się znacznie częściej w szablonach i dokumentacji projektu niż w rzeczywistym kodzie źródłowym.
Agenci AI wyraźnie prowadzą, ponieważ przeszukują projekt krok po kroku, zamiast sortować wszystkie trafienia jednocześnie. Na poziomie plików systemy radzą sobie dobrze — znajdują właściwy plik źródłowy, klasyfikują go wcześnie i utrzymują dobór w wąskich granicach.
Jednak w momencie, gdy test przybliża się do pojedynczych linii kodu, system się rozpada. Agenci kodowania ogólnego pokrywają tylko 14–19% linii, które rzeczywiście mają znaczenie.
W kontrolowanym eksperymencie zespół sztucznie zmieniał kontekst. Model naprawy widział tylko 0, 25, 50, 75 lub 100% kluczowych regionów, czasami uzupełnionych nieistotnym kodem. Dla łatwiejszych zadań w zbiorze danych pojawia się wyraźny efekt progowy.
Dopóki widocznych jest mniej niż połowa niezbędnych regionów kluczowych, naprawy w większości zawodzą. Wskaźnik sukcesu skacze dopiero między 50 a 75% pokrycia. Poprawki nie ulepszają się stopniowo — potrzebują minimalnej ilości wskazówek, zanim cokolwiek „kliknie”.
Po udostępnieniu krytycznych miejsc, dodatkowy nieistotny kod prawie nie przeszkadza. Agent, który czyta zbyt mało, radzi sobie gorzej niż ten, który czyta zbyt dużo. Wniosek dla przyszłych ulepszeń jest jasny: filtrować mniej, czytać więcej.
Badanie ujawnia fundamentalną słabość obecnych agentów AI w kodowaniu — choć potrafią one nawigować do właściwych plików, brakuje im precyzji w identyfikacji konkretnych fragmentów wymagających naprawy. Ten problem może tłumaczyć, dlaczego nawet zaawansowane systemy AI czasami produkują rozwiązania, które menedżerowie projektów odrzucają z powodu podstawowych błędów funkcjonalnych.

Marynarka USA przyznała platformie EdgeRunner OS dostęp do informacji Secret. System AI działa lokalnie, bez internetu, nawet pod ostrzałem.

Globalna firma konsultingowa została przyłapana na tworzeniu fałszywych studiów przypadków AI. Wszystkie wymienione organizacje zaprzeczyły.

Naukowcy przedstawili SemantiClean — system analizy zachowań użytkowników e-commerce stawiający na transparentność zamiast maksymalną dokładność predykcji.