Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.

Źródło zdjęcia: huggingface.co
Badacze z IBM Research przedstawili szczegółową analizę benchmarku VAKRA — nowego narzędzia do oceny zdolności agentów AI w środowiskach przypominających przedsiębiorstwa. Publikacja dostępna na Hugging Face rzuca światło na słabe punkty obecnych modeli AI w wykonywaniu złożonych zadań biznesowych.
VAKRA to wykonywalny benchmark oparty na narzędziach, który mierzy zdolności kompozycyjnego rozumowania agentów AI w środowisku z ponad 8000 lokalnie hostowanymi API wspieranymi przez rzeczywiste bazy danych z 62 domen. W przeciwieństwie do tradycyjnych benchmarków testujących izolowane umiejętności, VAKRA ocenia, czy agenci potrafią niezawodnie wykonywać wieloetapowe przepływy pracy.
Środowisko wymaga od agentów łączenia strukturalnej interakcji z API z nieustrukturyzowanym wyszukiwaniem informacji, wykorzystując łańcuchy rozumowania składające się z 3-7 kroków pod naturalnymi ograniczeniami językowymi.
Benchmark składa się z czterech głównych zadań testujących różne możliwości:
Capability 1: Łączenie API biznesowej inteligencji obejmuje 2077 przypadków testowych w 54 domenach, wykorzystując narzędzia z kolekcji SLOT-BIRD i SEL-BIRD. Zadania wymagają tworzenia łańcuchów składających się z 1-12 wywołań narzędzi. Każda instancja ma powiązane źródło danych JSON, z którego musi zostać wyprowadzona odpowiedź.
Capability 2: Wybór narzędzi z API paneli kontrolnych zawiera 1597 instancji w 17 domenach, używając rozszerzonej kolekcji REST-BIRD. Te interfejsy w stylu endpoint zapewniają wysoce specyficzne, dopasowane do zapytań punkty końcowe. Każda domena zawiera minimum 6, a maksimum 328 narzędzi (średnio 116).
Capability 3: Wieloetapowe rozumowanie obejmuje 869 przypadków testowych z 38 domen tematycznych, ponownie opierając się na kolekcji REST-BIRD API, ale dodając wieloetapowe wyzwania rozumowania.
Capability 4 łączy elementy poprzednich zadań w bardziej złożone scenariusze.
Jak pokazują wyniki, modele AI radzą sobie słabo w benchmarku VAKRA. Autorzy przeprowadzili szczegółową analizę trybów awarii obserwowanych w różnych zadaniach, co ujawnia znaczące luki w obecnych możliwościach agentów AI.
VAKRA wykorzystuje serwery MCP (Model Control Protocol) do obsługi różnych kolekcji narzędzi. Specjalne narzędzie get_data(tool_universe_id=id) musi być wywoływane na początku każdej instancji, inicjalizując źródło danych i zwracając lekki podgląd danych przy jednoczesnym przechowywaniu pełnego zestawu danych po stronie serwera.
Kolekcja SLOT-BIRD dostarcza globalny zestaw 7 narzędzi do ogólnej manipulacji danymi, inspirowanych systemami takimi jak Tableau i Google Analytics. SEL-BIRD rozszerza to o bardziej wyspecjalizowane narzędzia, niektóre wspólne z SLOT-BIRD, inne pochodzące z spłaszczenia argumentów kategorycznych w oddzielne funkcje.
API OpenAI ogranicza listę narzędzi do maksymalnie 128 pozycji, co wymaga od twórców agentów bezpośredniego zarządzania długością listy narzędzi poprzez mechanizm skracania list. W podstawowych agentach dostępnych w repozytorium autorów, proste możliwości skracania list radzą sobie z tym wyzwaniem.
VAKRA reprezentuje znaczący krok w kierunku bardziej realistycznej oceny zdolności agentów AI w kontekstach przedsiębiorstw. Benchmark ujawnia, że pomimo postępów w dziedzinie AI, obecne modele nadal mają znaczące problemy z wykonywaniem złożonych, wieloetapowych zadań wymagających kombinacji różnych typów rozumowania i interakcji z narzędziami.
Badanie pokazuje konkretne obszary, w których agenci AI potrzebują ulepszeń, aby stać się praktycznie użytecznymi w rzeczywistych środowiskach biznesowych. Analiza trybów awarii dostarcza cennych wskazówek dla przyszłego rozwoju systemów AI.

Co najmniej 20 225 kont Instagram zostało przejętych przez hakerów, którzy wykorzystali lukę w chatbocie AI Meta do resetowania haseł użytkowników.

Badacze opracowali rewolucyjny układ FeMEMS, który zapisuje dane elektrycznie, ale odczytuje je przez mikroskopijne drgania, drastycznie zmniejszając zużycie energii AI.

Podczas gdy AI bije rekordy funduszy, startupowcy tworzą produkty łączące ludzi offline. Board i cyberdecki to przykłady trendu 'together tech'.