Badacze z UC Berkeley stworzyli system automatycznie wykrywający luki w benchmarkach AI. BenchJack zhakował niemal wszystkie popularne testy.

Źródło zdjęcia: arXiv.org
Badacze z Uniwersytetu Kalifornijskiego w Berkeley opracowali system BenchJack, który systematycznie wykrywa luki w testach AI umożliwiające agentom sztucznej inteligencji osiąganie wysokich wyników bez faktycznego rozwiązywania zadań. Nowe badanie opublikowane na ujawnia poważne problemy z bezpieczeństwem popularnych benchmarków AI.

Sasha Luccioni z Hugging Face zakłada Sustainable AI Group, by pomóc firmom ograniczyć wpływ AI na środowisko. Postuluje licznik energii w ChatGPT i większą transparentność.

Meta AI otrzyma funkcję Incognito Chat z szyfrowaniem end-to-end, która nie będzie przechowywać rozmów na serwerach — w odróżnieniu od konkurencji.
Zespół badawczy pod kierownictwem Hao Wanga wykazał, że współczesne benchmarki AI nie są projektowane z myślą o bezpieczeństwie. Reward hacking, czyli maksymalizowanie wyniku bez wykonania zamierzonego zadania, pojawia się spontanicznie w zaawansowanych modelach bez konieczności overfittingu.
Badacze stworzyli taksonomię ośmiu wzorców błędów na podstawie wcześniejszych incydentów reward hackingu i skompilowali je w Agent-Eval Checklist — listę kontrolną dla projektantów benchmarków. BenchJack wykorzystuje te wzorce jako automatyczny system red-teamingu, który kieruje agentami kodującymi w celu audytu benchmarków.
System BenchJack działa jako iteracyjny pipeline generatywno-adversarialny, który odkrywa nowe luki i naprawia je iteracyjnie, poprawiając odporność benchmarków. Podczas testów na 10 popularnych benchmarkach obejmujących różne obszary — od inżynierii oprogramowania przez nawigację internetową po operacje na pulpicie — system syntetyzował exploity umożliwiające osiągnięcie niemal perfekcyjnych wyników.
Rozszerzona wersja systemu nie tylko wykrywa luki, ale również je naprawia. W przypadku benchmarków bez krytycznych wad projektowych, BenchJack zmniejszył współczynnik zadań podatnych na hacking z niemal 100% do poniżej 10%. Szczególnie imponujące wyniki osiągnięto z WebArena i OSWorld, które zostały w pełni zabezpieczone w ciągu zaledwie trzech iteracji.
Wyniki badania pokazują, że obecne procesy ewaluacji nie internalizowały myślenia adversarialnego. Autorzy argumentują, że proaktywny audyt może pomóc zamknąć lukę bezpieczeństwa w szybko rozwijającej się przestrzeni benchmarkingu AI. To szczególnie istotne, gdy benchmarki stają się de facto miarą kompetencji zaawansowanej AI, wpływając na wybór modeli, inwestycje i wdrożenia.