Naukowcy opracowali COSPLAY - system dwóch współpracujących agentów AI, który osiąga 25,1% poprawę wydajności w długoterminowym planowaniu.

Źródło zdjęcia: arXiv.org
Naukowcy z University of North Carolina opracowali przełomową metodę COSPLAY, która pozwala dużym modelom językowym (LLM) znacznie lepiej radzić sobie z zadaniami wymagającymi długoterminowego planowania. przedstawia innowacyjne podejście do uczenia agentów AI poprzez koewolucję dwóch systemów: agenta podejmującego decyzje i banku umiejętności.

Badanie Claude pokazało, że użytkownicy słabszych agentów AI tracą pieniądze w negocjacjach, ale oceniają sprawiedliwość transakcji tak samo wysoko jak ci z lepszymi modelami.

Nowe badanie wprowadza Indeks Obronności i metryki oparte na polityce zarządzania, wykazując 33-46% różnicę w ocenie systemów AI.
Tradycyjne LLM-y często mają problemy z utrzymaniem spójności decyzji w długich sekwencjach działań, ponieważ brakuje im mechanizmu do odkrywania, przechowywania i ponownego wykorzystywania ustrukturyzowanych umiejętności między epizodami.
• Podwójny system agentów: COSPLAY wykorzystuje dwa współpracujące komponenty - agenta decyzyjnego pobierającego umiejętności z banku oraz agenta zarządzającego bankiem umiejętności, który odkrywa nowe zdolności z działań agenta
• Znacząca poprawa wydajności: System z modelem bazowym 8B osiągnął ponad 25,1% średnią poprawę nagrody w porównaniu z czterema czołowymi modelami LLM w grach dla pojedynczego gracza
• Uniwersalne zastosowanie: Framework został przetestowany w sześciu różnych środowiskach gier, wykazując skuteczność zarówno w grach strategicznych jak i społecznych
• Samodoskonalenie: System kontinuuje ekstrakcję, rafinację i aktualizację umiejętności wraz z ich kontraktami, co prowadzi do ciągłego uczenia się
COSPLAY różni się od dotychczasowych rozwiązań tym, że łączy dwa wzajemnie się wzmacniające procesy. Agent podejmujący decyzje wykorzystuje umiejętności z banku do kierowania działaniami, podczas gdy agent zarządzający bankiem umiejętności odkrywa nowe zdolności z nieoznakowanych sekwencji działań agenta. Ten mechanizm pozwala na ciągłe doskonalenie obu komponentów - agent decyzyjny uczy się lepszego pobierania umiejętności i generowania działań, a bank umiejętności stale się rozwija.
Kluczowym elementem systemu jest zdolność do radzenia sobie z opóźnionymi nagrodami i częściową obserwowalnością środowiska. W przeciwieństwie do tradycyjnych metod, które wymagają wcześniej zdefiniowanych umiejętności, COSPLAY automatycznie odkrywa i strukturyzuje wiedzę z doświadczeń agenta.
Zespół badawczy przetestował framework w sześciu różnych środowiskach gier, które stanowią wymagający test dla zdolności agentów do wykorzystywania umiejętności. Te środowiska wymagają wieloetapowego rozumowania, łączenia wielu umiejętności na przestrzeni wielu kroków czasowych oraz solidnego podejmowania decyzji w warunkach niepewności.
Wyniki pokazują, że COSPLAY z modelem bazowym 8B parametrów osiąga konkurencyjne rezultaty również w grach wieloosobowych wymagających rozumowania społecznego, co dowodzi uniwersalności podejścia.
Framework COSPLAY otwiera nowe możliwości dla rozwoju agentów AI zdolnych do długoterminowego planowania i adaptacji, co może mieć szerokie zastosowanie w robotyce, automatyzacji i innych dziedzinach wymagających złożonego podejmowania decyzji.