30 kwietnia 20264 min czytania

Badanie niezawodności agentów AI zarządzających realnym kapitałem na blockchain

Naukowcy przebadali 3505 agentów handlujących prawdziwym ETH przez 21 dni, generując 20 mln dol. wolumenu i 99,9% sukcesu transakcji.

Źródło zdjęcia: arXiv.org

Poprzedni

Badacze OpenAI wyjaśniają, dlaczego matematyka to droga do AGI

Następny

Distill-Belief: Nowa metoda AI dla autonomicznej lokalizacji źródeł w polach fizycznych

Podobne Publikacje

Narzędzia i Aplikacje

OpenAI udostępnia Symphony — system pozwalający agentom AI zarządzać sobą samodzielnie

OpenAI wypuściło Symphony, które przekształca trackery zadań w centrum kontroli dla autonomicznych agentów AI, eliminując problem ludzkiej uwagi jako wąskiego gardła.

4 min4 maja

Badania i Nauka

Badanie Harvard: AI dokładniejsze w diagnozach na izbie przyjęć niż dwóch lekarzy

Model o1 od OpenAI osiągnął 67% trafnych diagnoz w izbie przyjęć, podczas gdy lekarze tylko 55% i 50%. Badanie Harvard Medical School nad 76 przypadkami.

Kluczowe wnioski

Niezawodność agentów AI nie wynikała z samego modelu podstawowego, ale z warstwy operacyjnej obejmującej kompilację promptów, kontrole typu, walidację polityki i zabezpieczenia wykonania.

Testy przedwdrożeniowe ujawniły problemy niewykrywane przez standardowe benchmarki tekstowe, w tym wymyślone reguły handlowe, paraliż opłat i nieprawidłowe odczytywanie tokenomiki.

Ukierunkowane zmiany w systemie testowym zredukowały fabricated sell rules z 57% do 3%, obserwacje związane z opłatami z 32,5% do poniżej 10% i zwiększyły wdrożenie kapitału z 42,9% do 78,0%.

Długotrwale działające agenty wykonały tysiące sekwencyjnych decyzji, w tym ponad 6000 cykli prompt-stan-akcja dla ciągle aktywnych agentów.

System wykazał, że agenci zarządzający kapitałem powinni być oceniani przez pełną ścieżkę od mandatu użytkownika do promptu, zwalidowanej akcji i rozliczenia.

Architektura systemu i metodologia

Platforma DX Terminal Pro umożliwiała użytkownikom konfigurowanie skarbców poprzez strukturalne kontrole i strategie w języku naturalnym, podczas gdy tylko agenty mogły podejmować normalne decyzje kupna/sprzedaży. Badacze skupili się na analizie pełnej ścieżki od mandatu użytkownika przez skompilowany prompt, rozumowanie, walidację, stan portfela aż do rozliczenia.

Kluczowym odkryciem było to, że sama wydajność modelu podstawowego nie gwarantowała niezawodności w rzeczywistych warunkach handlowych. Badacze zidentyfikowali konieczność implementacji kompleksowej warstwy operacyjnej, która obejmowała projektowanie pamięci, observability na poziomie śladów oraz guards wykonania.

Problemy wykryte podczas testów

Badanie ujawniło szereg problemów, które rzadko są mierzone w standardowych benchmarkach opartych wyłącznie na tekście. Wśród najważniejszych znalazły się fabricated trading rules — sytuacje, w których agenty wymyślały nieistniejące reguły handlowe. Fee paralysis odnosił się do sytuacji, gdzie agenty paralyzowały się z powodu obaw o wysokie opłaty transakcyjne.

Numeric anchoring oznaczał nieprawidłowe przywiązywanie się agentów do konkretnych wartości liczbowych, podczas gdy cadence trading dotyczył problemów z właściwym tempem wykonywania transakcji. Misread tokenomics wiązał się z nieprawidłowym interpretowaniem mechanizmów ekonomicznych tokenów.

Wyniki optymalizacji systemu

Dzięki ukierunkowanym zmianom w systemie testowym zespół osiągnął znaczące poprawy w kluczowych metrykach. Redukcja fabricated sell rules z 57% do zaledwie 3% pokazała skuteczność implementowanych zabezpieczeń. Podobnie, zmniejszenie obserwacji związanych z opłatami z 32,5% do poziomu poniżej 10% wskazywało na lepsze zarządzanie kosztami transakcyjnymi.

Szczególnie istotne było zwiększenie wdrożenia kapitału z 42,9% do 78,0% w badanej populacji, co demonstrowało praktyczną użyteczność wprowadzonych ulepszeń dla rzeczywistego handlu.

Badanie stanowi pierwszą tak zakrojoną analizę autonomicznych agentów AI działających z realnym kapitałem w środowisku blockchain, dostarczając cennych wskazówek dla przyszłego rozwoju systemów finansowych opartych na sztucznej inteligencji.