15 kwietnia 20264 min czytania

Benchmark VAKRA ujawnia słabe punkty agentów AI w zadaniach biznesowych

Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.

Źródło zdjęcia: huggingface.co

Badacze z IBM Research przedstawili szczegółową analizę benchmarku VAKRA — nowego narzędzia do oceny zdolności agentów AI w środowiskach przypominających przedsiębiorstwa. Publikacja dostępna na Hugging Face rzuca światło na słabe punkty obecnych modeli AI w wykonywaniu złożonych zadań biznesowych.

Czym jest benchmark VAKRA

VAKRA to wykonywalny benchmark oparty na narzędziach, który mierzy zdolności kompozycyjnego rozumowania agentów AI w środowisku z ponad 8000 lokalnie hostowanymi API wspieranymi przez rzeczywiste bazy danych z 62 domen. W przeciwieństwie do tradycyjnych benchmarków testujących izolowane umiejętności, VAKRA ocenia, czy agenci potrafią niezawodnie wykonywać wieloetapowe przepływy pracy.

Środowisko wymaga od agentów łączenia strukturalnej interakcji z API z nieustrukturyzowanym wyszukiwaniem informacji, wykorzystując łańcuchy rozumowania składające się z 3-7 kroków pod naturalnymi ograniczeniami językowymi.

Cztery kluczowe zdolności w teście

Benchmark składa się z czterech głównych zadań testujących różne możliwości:

Capability 1: Łączenie API biznesowej inteligencji obejmuje 2077 przypadków testowych w 54 domenach, wykorzystując narzędzia z kolekcji SLOT-BIRD i SEL-BIRD. Zadania wymagają tworzenia łańcuchów składających się z 1-12 wywołań narzędzi. Każda instancja ma powiązane źródło danych JSON, z którego musi zostać wyprowadzona odpowiedź.

Capability 2: Wybór narzędzi z API paneli kontrolnych zawiera 1597 instancji w 17 domenach, używając rozszerzonej kolekcji REST-BIRD. Te interfejsy w stylu endpoint zapewniają wysoce specyficzne, dopasowane do zapytań punkty końcowe. Każda domena zawiera minimum 6, a maksimum 328 narzędzi (średnio 116).

Capability 3: Wieloetapowe rozumowanie obejmuje 869 przypadków testowych z 38 domen tematycznych, ponownie opierając się na kolekcji REST-BIRD API, ale dodając wieloetapowe wyzwania rozumowania.

Capability 4 łączy elementy poprzednich zadań w bardziej złożone scenariusze.

Słabe wyniki modeli

Jak pokazują wyniki, modele AI radzą sobie słabo w benchmarku VAKRA. Autorzy przeprowadzili szczegółową analizę trybów awarii obserwowanych w różnych zadaniach, co ujawnia znaczące luki w obecnych możliwościach agentów AI.

Techniczne szczegóły implementacji

VAKRA wykorzystuje serwery MCP (Model Control Protocol) do obsługi różnych kolekcji narzędzi. Specjalne narzędzie get_data(tool_universe_id=id) musi być wywoływane na początku każdej instancji, inicjalizując źródło danych i zwracając lekki podgląd danych przy jednoczesnym przechowywaniu pełnego zestawu danych po stronie serwera.

Kolekcja SLOT-BIRD dostarcza globalny zestaw 7 narzędzi do ogólnej manipulacji danymi, inspirowanych systemami takimi jak Tableau i Google Analytics. SEL-BIRD rozszerza to o bardziej wyspecjalizowane narzędzia, niektóre wspólne z SLOT-BIRD, inne pochodzące z spłaszczenia argumentów kategorycznych w oddzielne funkcje.

Ograniczenia i wyzwania

API OpenAI ogranicza listę narzędzi do maksymalnie 128 pozycji, co wymaga od twórców agentów bezpośredniego zarządzania długością listy narzędzi poprzez mechanizm skracania list. W podstawowych agentach dostępnych w repozytorium autorów, proste możliwości skracania list radzą sobie z tym wyzwaniem.

Znaczenie dla rozwoju AI

VAKRA reprezentuje znaczący krok w kierunku bardziej realistycznej oceny zdolności agentów AI w kontekstach przedsiębiorstw. Benchmark ujawnia, że pomimo postępów w dziedzinie AI, obecne modele nadal mają znaczące problemy z wykonywaniem złożonych, wieloetapowych zadań wymagających kombinacji różnych typów rozumowania i interakcji z narzędziami.

Badanie pokazuje konkretne obszary, w których agenci AI potrzebują ulepszeń, aby stać się praktycznie użytecznymi w rzeczywistych środowiskach biznesowych. Analiza trybów awarii dostarcza cennych wskazówek dla przyszłego rozwoju systemów AI.

#API #IBM Research #agenci AI #rozumowanie #benchmark

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

Claude pokonał ludzkich badaczy w zadaniu alignment, ale efekt zniknął w rzeczywistości

Następny

Sztuczna inteligencja sprawia, że internet staje się fałszywie szczęśliwy

Podobne Publikacje

Etyka i Bezpieczeństwo

Doświadczony programista: AI zabiła radość z tworzenia oprogramowania

Inżynier z 20-letnim stażem opisuje, jak sztuczna inteligencja całkowicie zmieniła jego zawód, eliminując satysfakcję z programowania.

4 min18 lipca

Biznes i Rynek

Wistron otwiera fabrykę superchipów NVIDIA za 700 mln dolarów w Teksasie

Tajwańska firma Wistron uruchomiła pierwszą amerykańską fabrykę w Fort Worth, produkującą superchipy AI NVIDIA za 700 mln dolarów.

4 min22 lipca

Narzędzia i Aplikacje

NVIDIA i Hugging Face integrują NeMo Automodel z Diffusers dla skalowania treningu modeli AI

Integracja eliminuje konwersje checkpointów i oferuje gotowe przepisy dla FLUX, Wan, HunyuanVideo — od jednego GPU do wielowęzłowych klastrów.

4 min17 lipca