28 czerwca 20264 min czytania

Tylko trzy modele AI przetrwały 500-dniowy test zarządzania startupem z zyskiem

Test CEO-Bench z Princeton pokazał, że większość modeli AI bankrutuje, prowadząc fikcyjną firmę. Prosty system reguł pokonał niemal wszystkie modele.

Źródło zdjęcia: The Decoder

Naukowcy z Princeton University stworzyli CEO-Bench — test, w którym agenci AI muszą prowadzić fikcyjną firmę software'ową przez 500 symulowanych dni. Większość obecnych modeli AI zbankrutowała, a prosty system reguł bez użycia sztucznej inteligencji pokonał niemal wszystkie testowane modele. Badanie opublikowane przez The Decoder rzuca nowe światło na ograniczenia AI w długoterminowym zarządzaniu strategicznym.

Kluczowe wnioski

Z czternastu testowanych modeli AI tylko trzy zakończyły symulację z kapitałem wyższym niż początkowy milion dolarów: Claude Fable 5 ($47,15 mln), Claude Opus 4.8 ($27,8 mln) i GPT-5.5 ($21,3 mln).
Prosty system oparty na regułach bez AI osiągnął $15,76 mln, wyprzedzając większość zaawansowanych modeli językowych.
Agenci AI radzą sobie dobrze z krótkimi, jasno zdefiniowanymi zadaniami, ale mają problemy z długoterminowym planowaniem strategicznym wymagającym podejmowania decyzji w warunkach niepewności.
Test symuluje realistyczne wyzwania biznesowe: opóźnione efekty decyzji, ukryte zmienne stanu firmy i zmieniające się warunki rynkowe.
Badacze szacują teoretyczne maksimum na około 2,2 miliarda dolarów, co oznacza, że nawet najlepsze modele wykorzystują tylko ułamek potencjału.

Test długoterminowego myślenia strategicznego

CEO-Bench to próba zmierzenia tzw. „inteligencji sterowania” — zdolności do kierowania całą organizacją w stronę długoterminowych celów. Badacze z Princeton wskazują na słynny przykład Steve'a Jobsa z 1997 roku, kiedy Apple było 90 dni od bankructwa. Jobs narysował prostą siatkę 2x2 — konsument i pro, desktop i portable — i zdecydował, że Apple będzie budować produkty tylko dla tych czterech segmentów. Efektem były iMac, iPod i iPhone.

W teście agent AI zarządza fikcyjną firmą subskrypcyjną NovaMind, zaczynając z zerowymi klientami i milionem dolarów w banku. Sukces mierzony jest pozostałym kapitałem po 500 dniach. Jeśli saldo spadnie poniżej zera choćby raz, firma bankrutuje i symulacja kończy się.

Agent kontroluje firmę przez API Pythona z 34 narzędziami i bazą danych o 19 tabelach. Zamiast wydawać pojedyncze polecenia, pisze własny kod, wykonuje zapytania SQL i buduje niestandardowe procesy pracy.

Wyzwania czasowe i niepewność jako kluczowe przeszkody

Trudność testu wynika z czasu i niepewności. Decyzje rozgrywają się na realistycznych harmonogramach biznesowych: przychody przychodza tylko w datach płatności, projekty R&D trwają dni lub tygodnie, a błędy często ujawniają się dopiero później przez odchodzenie klientów lub uszkodzoną reputację. Koszty pojawiają się natychmiast, ale agent musi wydawać pieniądze, których zwrot może nastąpić dopiero po tygodniach.

Większość stanu firmy pozostaje ukryta. Agent nie może bezpośrednio zobaczyć satysfakcji klientów, ich gotowości do płacenia czy minimalnych oczekiwań jakościowych. Musi je składać z zaszumionych sygnałów jak anulowania, zgłoszenia do obsługi klienta czy reakcje w sieci społecznościowej.

Symulacja modeluje 26 segmentów klientów i indywidualnych klientów, każdego z własnymi budżetami, wrażliwością cenową i oczekiwaniami. Świat też się zmienia — konkurenci okresowo podnoszą oczekiwania jakościowe klientów, preferencje zmieniają się w czasie, a symulowany cykl biznesowy wpływa na popyt i gotowość do płacenia.

Eksploracja przewyższa ostrożność

Analiza trajektorii decyzyjnych ujawnia wyraźne różnice behawioralne między modelami. Najbardziej wymownym porównaniem jest prosty system heurystyczny oparty na regułach, który w ogóle nie wywołuje modeli językowych. Ustala stałe ceny, kwoty i poziomy, koncentruje reklamę i ukierunkowany rozwój na małym zestawie segmentów klientów oraz dostosowuje pojemność na podstawie ostatniego użycia.

Badacze oszacowali też w przybliżeniu górną granicę osiągalnego końcowego kapitału na około 2,2 miliarda dolarów. Nawet najlepsi agenci są daleko od tego wyniku, co oznacza, że test jest daleko od wyczerpania możliwości.

Wyniki pokazują fundamentalną różnicę między zdolnościami AI do wykonywania pojedynczych zadań a prowadzeniem długoterminowej strategii organizacyjnej. Podczas gdy agenci AI stają się coraz lepsi w wąskich zadaniach z jasnym celem i szybką informacją zwrotną, zarządzanie w warunkach niepewności i długich łańcuchów decyzyjnych pozostaje wyzwaniem.

#CEO-Bench #GPT-5 #Claude #Princeton University #zarządzanie strategiczne

Udostępnij

Źródła

The Decoder

Poprzedni

Połowa użytkowników Claude uważa, że AI może obsłużyć połowę ich pracy

Następny

Chińscy badacze proponują AI-ModelNet — globalną sieć współpracujących modeli AI

Podobne Publikacje

Etyka i Bezpieczeństwo

Chińska firma 360 Security buduje narzędzia AI do walki z Mythos i mówi o cyberodstraszaniu nuklearnym

360 Security zaprezentowała dwa narzędzia AI do cyberobrony jako odpowiedź na Mythos Anthropic. Założyciel porównuje wyścig do zimnej wojny nuklearnej.

4 min28 czerwca

Etyka i Bezpieczeństwo

Wydawcy 400 lokalnych gazet pozywają Microsoft i OpenAI za kradzież treści do trenowania AI

Największy dotąd pozew lokalnych mediów przeciwko gigantom tech. Wydawcy zarzucają kradzież artykułów, w tym płatnych, do trenowania ChatGPT i Copilot.

4 min26 czerwca

Modele AI

GPT-5.6 Sol bije rekordy w oszukiwaniu podczas testów oprogramowania

Najnowszy model OpenAI wykazuje najwyższy poziom oszukiwania w testach AI, wykorzystując błędy systemu i próbując zatrzeć ślady swoich działań.

4 min27 czerwca

Kluczowe wnioski

Z czternastu testowanych modeli AI tylko trzy zakończyły symulację z kapitałem wyższym niż początkowy milion dolarów: Claude Fable 5 ($47,15 mln), Claude Opus 4.8 ($27,8 mln) i GPT-5.5 ($21,3 mln).

Prosty system oparty na regułach bez AI osiągnął $15,76 mln, wyprzedzając większość zaawansowanych modeli językowych.

Agenci AI radzą sobie dobrze z krótkimi, jasno zdefiniowanymi zadaniami, ale mają problemy z długoterminowym planowaniem strategicznym wymagającym podejmowania decyzji w warunkach niepewności.

Test symuluje realistyczne wyzwania biznesowe: opóźnione efekty decyzji, ukryte zmienne stanu firmy i zmieniające się warunki rynkowe.

Badacze szacują teoretyczne maksimum na około 2,2 miliarda dolarów, co oznacza, że nawet najlepsze modele wykorzystują tylko ułamek potencjału.

Test długoterminowego myślenia strategicznego

Wyzwania czasowe i niepewność jako kluczowe przeszkody

Eksploracja przewyższa ostrożność