Badacze opracowali sposób kwantyfikacji strategii podejmowania decyzji przez modele językowe bez dostępu do ich wewnętrznej architektury.

Źródło zdjęcia: arXiv.org
Zespół badaczy z uniwersytetów w USA opracował nową metodę oceny agentów opartych na modelach językowych, która pozwala mierzyć błędy eksploracji i eksploatacji bez dostępu do wewnętrznej polityki agenta. Badanie zostało opublikowane w i pokazuje, że nawet najnowocześniejsze modele językowe mają problemy z efektywnym równoważeniem tych dwóch kluczowych strategii podejmowania decyzji.

System VisionClaw łączy ciągłe postrzeganie otoczenia przez okulary z wykonywaniem zadań cyfrowych, oferując o 13-37% szybsze działanie.

Naukowcy opracowali GIST - system AI przekształcający dane z mobilnych skanerów w semantyczne mapy nawigacyjne z 80% skutecznością w testach.
Autorzy badania — Jaden Park wraz z zespołem z kilku amerykańskich uniwersytetów — zaprojektowali specjalne środowiska testowe inspirowane praktycznymi scenariuszami embodied AI. Każde środowisko składa się z częściowo obserwowalnej mapy 2D oraz nieznanego grafu zadań w formie Directed Acyclic Graph (DAG).
Kluczową innowacją jest możliwość programowego dostosowywania generacji map w celu podkreślenia trudności związanych z eksploracją lub eksploatacją. Takie podejście pozwala na systematyczne testowanie różnych aspektów podejmowania decyzji przez agentów AI.
Zespół przetestował szereg najnowocześniejszych modeli językowych i odkrył, że wszystkie mają problemy z efektywnym wykonywaniem zadań wymagających strategicznego podejmowania decyzji. Co istotne, różne modele wykazywały charakterystyczne dla siebie wzorce niepowodzeń — niektóre miały większe trudności z eksploracją nowych możliwości, inne z wykorzystaniem już zdobytej wiedzy.
Szczególnie interesujące jest odkrycie, że modele zdolne do rozumowania (reasoning models) radzą sobie znacznie lepiej z przedstawionymi zadaniami. To sugeruje, że zdolność do wieloetapowego myślenia i analizy jest kluczowa dla efektywnego podejmowania decyzji w złożonych środowiskach.
Badacze udostępnili kod swojego projektu, co umożliwi dalsze badania nad optymalizacją strategii podejmowania decyzji przez agentów AI. Wyniki mają istotne implikacje dla rozwoju AI w zastosowaniach wymagających autonomicznego działania, od kodowania po fizyczne roboty.