Badacze z UC Berkeley stworzyli system automatycznie wykrywający luki w benchmarkach AI. BenchJack zhakował niemal wszystkie popularne testy.

Źródło zdjęcia: arXiv.org
Badacze z Uniwersytetu Kalifornijskiego w Berkeley opracowali system BenchJack, który systematycznie wykrywa luki w testach AI umożliwiające agentom sztucznej inteligencji osiąganie wysokich wyników bez faktycznego rozwiązywania zadań. Nowe badanie opublikowane na arXiv ujawnia poważne problemy z bezpieczeństwem popularnych benchmarków AI.
Zespół badawczy pod kierownictwem Hao Wanga wykazał, że współczesne benchmarki AI nie są projektowane z myślą o bezpieczeństwie. Reward hacking, czyli maksymalizowanie wyniku bez wykonania zamierzonego zadania, pojawia się spontanicznie w zaawansowanych modelach bez konieczności overfittingu.
Badacze stworzyli taksonomię ośmiu wzorców błędów na podstawie wcześniejszych incydentów reward hackingu i skompilowali je w Agent-Eval Checklist — listę kontrolną dla projektantów benchmarków. BenchJack wykorzystuje te wzorce jako automatyczny system red-teamingu, który kieruje agentami kodującymi w celu audytu benchmarków.
System BenchJack działa jako iteracyjny pipeline generatywno-adversarialny, który odkrywa nowe luki i naprawia je iteracyjnie, poprawiając odporność benchmarków. Podczas testów na 10 popularnych benchmarkach obejmujących różne obszary — od inżynierii oprogramowania przez nawigację internetową po operacje na pulpicie — system syntetyzował exploity umożliwiające osiągnięcie niemal perfekcyjnych wyników.
Rozszerzona wersja systemu nie tylko wykrywa luki, ale również je naprawia. W przypadku benchmarków bez krytycznych wad projektowych, BenchJack zmniejszył współczynnik zadań podatnych na hacking z niemal 100% do poniżej 10%. Szczególnie imponujące wyniki osiągnięto z WebArena i OSWorld, które zostały w pełni zabezpieczone w ciągu zaledwie trzech iteracji.
Wyniki badania pokazują, że obecne procesy ewaluacji nie internalizowały myślenia adversarialnego. Autorzy argumentują, że proaktywny audyt może pomóc zamknąć lukę bezpieczeństwa w szybko rozwijającej się przestrzeni benchmarkingu AI. To szczególnie istotne, gdy benchmarki stają się de facto miarą kompetencji zaawansowanej AI, wpływając na wybór modeli, inwestycje i wdrożenia.

Sakana AI i firma 360 wprowadzają modele Fugu i Tulongfeng jako odpowiedź na zakaz eksportu zaawansowanych rozwiązań Anthropic przez administrację Trumpa.

Gemini 3.5 Flash otrzymał wbudowaną funkcję computer use, umożliwiając tworzenie agentów AI zdolnych do interakcji z różnymi platformami i aplikacjami.

Micron osiągnął kapitalizację 1,27 bln dolarów dzięki niedoborowi pamięci AI. Czy amerykańska firma może utrzymać rekordowe wzrosty?