Naukowcy przebadali 3505 agentów handlujących prawdziwym ETH przez 21 dni, generując 20 mln dol. wolumenu i 99,9% sukcesu transakcji.

Źródło zdjęcia: arXiv.org

OpenAI wypuściło Symphony, które przekształca trackery zadań w centrum kontroli dla autonomicznych agentów AI, eliminując problem ludzkiej uwagi jako wąskiego gardła.

Model o1 od OpenAI osiągnął 67% trafnych diagnoz w izbie przyjęć, podczas gdy lekarze tylko 55% i 50%. Badanie Harvard Medical School nad 76 przypadkami.
Naukowcy z zespołu T.J. Bartona opublikowali przełomowe badanie dotyczące niezawodności autonomicznych agentów opartych na modelach językowych, które zarządzają realnym kapitałem w środowisku blockchain. Badanie zostało przeprowadzone na platformie DX Terminal Pro i opublikowane na arXiv.
Podczas 21-dniowego eksperymentu 3505 agentów finansowanych przez użytkowników handlowało prawdziwym ETH na ograniczonym rynku blockchain. System wygenerował łącznie 7,5 miliona wywołań agentów, około 300 tysięcy transakcji blockchain, wolumen handlu przekraczający 20 milionów dolarów oraz wykorzystał ponad 5000 ETH. Całkowity koszt inferencji wyniósł około 70 miliardów tokenów, a wskaźnik sukcesu rozliczenia transakcji zgodnych z polityką osiągnął 99,9%.
Platforma DX Terminal Pro umożliwiała użytkownikom konfigurowanie skarbców poprzez strukturalne kontrole i strategie w języku naturalnym, podczas gdy tylko agenty mogły podejmować normalne decyzje kupna/sprzedaży. Badacze skupili się na analizie pełnej ścieżki od mandatu użytkownika przez skompilowany prompt, rozumowanie, walidację, stan portfela aż do rozliczenia.
Kluczowym odkryciem było to, że sama wydajność modelu podstawowego nie gwarantowała niezawodności w rzeczywistych warunkach handlowych. Badacze zidentyfikowali konieczność implementacji kompleksowej warstwy operacyjnej, która obejmowała projektowanie pamięci, observability na poziomie śladów oraz guards wykonania.
Badanie ujawniło szereg problemów, które rzadko są mierzone w standardowych benchmarkach opartych wyłącznie na tekście. Wśród najważniejszych znalazły się fabricated trading rules — sytuacje, w których agenty wymyślały nieistniejące reguły handlowe. Fee paralysis odnosił się do sytuacji, gdzie agenty paralyzowały się z powodu obaw o wysokie opłaty transakcyjne.
Numeric anchoring oznaczał nieprawidłowe przywiązywanie się agentów do konkretnych wartości liczbowych, podczas gdy cadence trading dotyczył problemów z właściwym tempem wykonywania transakcji. Misread tokenomics wiązał się z nieprawidłowym interpretowaniem mechanizmów ekonomicznych tokenów.
Dzięki ukierunkowanym zmianom w systemie testowym zespół osiągnął znaczące poprawy w kluczowych metrykach. Redukcja fabricated sell rules z 57% do zaledwie 3% pokazała skuteczność implementowanych zabezpieczeń. Podobnie, zmniejszenie obserwacji związanych z opłatami z 32,5% do poziomu poniżej 10% wskazywało na lepsze zarządzanie kosztami transakcyjnymi.
Szczególnie istotne było zwiększenie wdrożenia kapitału z 42,9% do 78,0% w badanej populacji, co demonstrowało praktyczną użyteczność wprowadzonych ulepszeń dla rzeczywistego handlu.
Badanie stanowi pierwszą tak zakrojoną analizę autonomicznych agentów AI działających z realnym kapitałem w środowisku blockchain, dostarczając cennych wskazówek dla przyszłego rozwoju systemów finansowych opartych na sztucznej inteligencji.