Naukowcy opracowali MAVIC — metodę pozwalającą wieloagentowym systemom AI lepiej reagować na instrukcje przerywające bieżące zadania.

Źródło zdjęcia: arXiv.org
Naukowcy z uniwersytetów opracowali nową metodę MAVIC (Macro-Action Value Correction for Instruction Compliance), która pozwala wieloagentowym systemom sztucznej inteligencji lepiej reagować na instrukcje w języku naturalnym, które przerywają bieżące działania. Badanie zostało opublikowane na arXiv przez zespół pod kierownictwem Wo Wei Lin wraz z Ethanem Rathbunem i Enrico Marchesini.

Tencent planuje znacznie zwiększyć inwestycje w infrastrukturę AI w drugiej połowie 2026 roku, licząc na poprawę dostępności krajowych chipów.

WorldReasonBench testuje fizykę i logikę w wideo AI. Modele komercyjne jak Seedance 2.0 i Sora 2 wygrywają z open-source, ale wszystkie mają problem z logiką.
Problem dotyczy sytuacji, gdy systemy AI muszą przerwać długoterminowe zadania, aby wykonać natychmiastowe polecenia użytkownika. Tradycyjne metody uczenia ze wzmocnieniem często prowadzą do niespójnych wartości, gdy instrukcje przerywają sekwencje działań.
W rzeczywistych zastosowaniach wieloagentowego uczenia ze wzmocnieniem (MARL) systemy muszą adaptować się do zewnętrznych instrukcji w języku naturalnym, które mogą przerwać bieżące zachowanie i pozostawać w konflikcie z długoterminowymi celami. Kondycjonowanie nagród na instrukcjach wprowadza fundamentalny tryb awarii — aktualizacje Bellmana łączą estymaty wartości między kontekstami instrukcji, co prowadzi do niespójnych wartości gdy instrukcje przerywają makro-działania.
Proponowana metoda Macro-Action Value Correction for Instruction Compliance różni się od tradycyjnego kształtowania nagród tym, że modyfikuje sam cel bootstrappingu. Umożliwia to spójną estymację wartości przy stochastycznym przełączaniu instrukcji w ramach zunifikowanej polityki. MAVIC koryguje kopie zapasowe Bellmana na granicach instrukcji poprzez korektę przychodzącego celu instrukcji i przywrócenie wartości kontynuacji pod bieżącym celem.
Badacze przeprowadzili testy w coraz bardziej złożonych kooperacyjnych środowiskach wieloagentowych, wykazując że MAVIC osiąga wysoką zgodność z instrukcjami przy jednoczesnym zachowaniu wydajności zadań bazowych. Metoda została wyposażona w implementację actor-critic i wsparta analizą teoretyczną, co czyni ją gotową do praktycznego zastosowania.
Nowe podejście otwiera możliwości dla bardziej elastycznych systemów AI, które mogą skutecznie balansować między długoterminowymi celami a natychmiastowymi instrukcjami użytkowników w złożonych środowiskach współpracy.