Badacze przedstawili matematyczne ramy do zrozumienia, kiedy grupa agentów AI może działać jako jeden kolektywny agent z własnymi celami.

Źródło zdjęcia: arXiv.org

Naukowcy opracowali metodę LOCA, która identyfikuje przyczyny sukcesu ataków jailbreak. Wymaga tylko 6 zmian zamiast 20 jak poprzednie metody.

Startup Altara otrzymał 7 mln USD na rozwój AI skracającej diagnozę awarii baterii i półprzewodników z tygodni do minut poprzez integrację danych.
Naukowcy z Uniwersytetu Kopenhaskiego i innych instytucji przedstawili nowe podejście teoretyczne do zrozumienia, kiedy grupa sztucznych agentów może być postrzegana jako jeden, wspólny kolektywny agent. Badanie opublikowane na arXiv wprowadza matematyczne ramy do analizy zjawiska emergentnej zbiorowej sprawczości w systemach wieloagentowych AI.
Głównym wyzwaniem dla bezpieczeństwa zaawansowanych systemów AI jest możliwość, że wiele prostszych agentów może nieumyślnie utworzyć kolektywnego agenta o zdolnościach i celach różnych od tych posiadanych przez poszczególne jednostki. Problem ten ma fundamentalne znaczenie zarówno dla systemów biologicznych, jak i sztucznych.
Naukowcy Frederik Hytting Jørgensen, Sebastian Weichwald i Lewis Hammond przyjęli behawioralne podejście do definiowania zbiorowej sprawczości. Zgodnie z ich propozycją, grupa agentów może być uznana za kolektywnego agenta wtedy, gdy traktowanie jej wspólnych działań jako racjonalnych i celowych skutecznie przewiduje zachowanie całej grupy.
To podejście różni się od tradycyjnych definicji sprawczości, które często koncentrują się na wewnętrznych mechanizmach czy strukturach organizacyjnych. Zamiast tego autorzy skupiają się na obserwowalnych wynikach i zdolności predykcyjnej modelu zakładającego istnienie zbiorowej intencji.
Kluczowym elementem przedstawionego frameworka jest wykorzystanie teorii gier przyczynowych — modeli przyczynowych strategicznych interakcji wieloagentowych — oraz abstrakcji przyczynowej, która formalizuje sytuacje, gdy prosty model wysokiego poziomu wiernie oddaje bardziej złożony model niskiego poziomu.
Autorzy demonstrują praktyczne zastosowanie swojego podejścia przez rozwiązanie zagadki dotyczącej zachęt w modelach actor-critic. Dodatkowo przeprowadzają ilościowe oceny stopnia zbiorowej sprawczości wykazywanej przez różne mechanizmy głosowania, pokazując tym samym uniwersalność swojego podejścia.
Przedstawiona praca ma szczególne znaczenie dla bezpieczeństwa systemów AI, gdzie kluczowe jest zrozumienie, kiedy i jak mogą powstać nieprzewidziane kolektywne zachowania. Framework autorów ma na celu dostarczenie narzędzi teoretycznych i empirycznych do lepszego rozumienia, przewidywania i kontrolowania emergentnych kolektywnych agentów w systemach wieloagentowych AI.
Badanie zostało przyjęte na konferencję CLeaR 2026 i stanowi wkład w rozwijającą się dziedzinę badań nad bezpieczeństwem AI oraz teorią systemów wieloagentowych.