Test CEO-Bench z Princeton pokazał, że większość modeli AI bankrutuje, prowadząc fikcyjną firmę. Prosty system reguł pokonał niemal wszystkie modele.

Źródło zdjęcia: The Decoder
Naukowcy z Princeton University stworzyli CEO-Bench — test, w którym agenci AI muszą prowadzić fikcyjną firmę software'ową przez 500 symulowanych dni. Większość obecnych modeli AI zbankrutowała, a prosty system reguł bez użycia sztucznej inteligencji pokonał niemal wszystkie testowane modele. Badanie opublikowane przez The Decoder rzuca nowe światło na ograniczenia AI w długoterminowym zarządzaniu strategicznym.
CEO-Bench to próba zmierzenia tzw. „inteligencji sterowania” — zdolności do kierowania całą organizacją w stronę długoterminowych celów. Badacze z Princeton wskazują na słynny przykład Steve'a Jobsa z 1997 roku, kiedy Apple było 90 dni od bankructwa. Jobs narysował prostą siatkę 2x2 — konsument i pro, desktop i portable — i zdecydował, że Apple będzie budować produkty tylko dla tych czterech segmentów. Efektem były iMac, iPod i iPhone.
W teście agent AI zarządza fikcyjną firmą subskrypcyjną NovaMind, zaczynając z zerowymi klientami i milionem dolarów w banku. Sukces mierzony jest pozostałym kapitałem po 500 dniach. Jeśli saldo spadnie poniżej zera choćby raz, firma bankrutuje i symulacja kończy się.
Agent kontroluje firmę przez API Pythona z 34 narzędziami i bazą danych o 19 tabelach. Zamiast wydawać pojedyncze polecenia, pisze własny kod, wykonuje zapytania SQL i buduje niestandardowe procesy pracy.
Trudność testu wynika z czasu i niepewności. Decyzje rozgrywają się na realistycznych harmonogramach biznesowych: przychody przychodza tylko w datach płatności, projekty R&D trwają dni lub tygodnie, a błędy często ujawniają się dopiero później przez odchodzenie klientów lub uszkodzoną reputację. Koszty pojawiają się natychmiast, ale agent musi wydawać pieniądze, których zwrot może nastąpić dopiero po tygodniach.
Większość stanu firmy pozostaje ukryta. Agent nie może bezpośrednio zobaczyć satysfakcji klientów, ich gotowości do płacenia czy minimalnych oczekiwań jakościowych. Musi je składać z zaszumionych sygnałów jak anulowania, zgłoszenia do obsługi klienta czy reakcje w sieci społecznościowej.
Symulacja modeluje 26 segmentów klientów i indywidualnych klientów, każdego z własnymi budżetami, wrażliwością cenową i oczekiwaniami. Świat też się zmienia — konkurenci okresowo podnoszą oczekiwania jakościowe klientów, preferencje zmieniają się w czasie, a symulowany cykl biznesowy wpływa na popyt i gotowość do płacenia.
Analiza trajektorii decyzyjnych ujawnia wyraźne różnice behawioralne między modelami. Najbardziej wymownym porównaniem jest prosty system heurystyczny oparty na regułach, który w ogóle nie wywołuje modeli językowych. Ustala stałe ceny, kwoty i poziomy, koncentruje reklamę i ukierunkowany rozwój na małym zestawie segmentów klientów oraz dostosowuje pojemność na podstawie ostatniego użycia.
Badacze oszacowali też w przybliżeniu górną granicę osiągalnego końcowego kapitału na około 2,2 miliarda dolarów. Nawet najlepsi agenci są daleko od tego wyniku, co oznacza, że test jest daleko od wyczerpania możliwości.
Wyniki pokazują fundamentalną różnicę między zdolnościami AI do wykonywania pojedynczych zadań a prowadzeniem długoterminowej strategii organizacyjnej. Podczas gdy agenci AI stają się coraz lepsi w wąskich zadaniach z jasnym celem i szybką informacją zwrotną, zarządzanie w warunkach niepewności i długich łańcuchów decyzyjnych pozostaje wyzwaniem.

360 Security zaprezentowała dwa narzędzia AI do cyberobrony jako odpowiedź na Mythos Anthropic. Założyciel porównuje wyścig do zimnej wojny nuklearnej.

Największy dotąd pozew lokalnych mediów przeciwko gigantom tech. Wydawcy zarzucają kradzież artykułów, w tym płatnych, do trenowania ChatGPT i Copilot.

Najnowszy model OpenAI wykazuje najwyższy poziom oszukiwania w testach AI, wykorzystując błędy systemu i próbując zatrzeć ślady swoich działań.