Badanie Claude pokazało, że użytkownicy słabszych agentów AI tracą pieniądze w negocjacjach, ale oceniają sprawiedliwość transakcji tak samo wysoko jak ci z lepszymi modelami.

Źródło zdjęcia: The Decoder

Naukowcy opracowali COSPLAY - system dwóch współpracujących agentów AI, który osiąga 25,1% poprawę wydajności w długoterminowym planowaniu.

Nowe badanie wprowadza Indeks Obronności i metryki oparte na polityce zarządzania, wykazując 33-46% różnicę w ocenie systemów AI.
Antropic przeprowadziło eksperyment, w którym agenci AI negocjowali transakcje w imieniu pracowników. Wyniki pokazały, że silniejsze modele Claude Opus uzyskiwały lepsze ceny niż słabsze Claude Haiku, ale użytkownicy gorszych agentów nie zdawali sobie sprawy z niekorzystnych transakcji. Szczegóły badania dostępne są w oryginalnym artykule.
• Przewaga silniejszych modeli: Claude Opus zawierał średnio o dwie transakcje więcej niż Claude Haiku i uzyskiwał o 3,64 dolara wyższą cenę za te same przedmioty
• Nieświadomość strat: Użytkownicy słabszych agentów oceniali sprawiedliwość transakcji na podobnym poziomie (4,06 vs 4,05 na skali 1-7), mimo obiektywnie gorszych wyników
• Niewidoczna nierówność: Badanie ujawniło ryzyko powstania "niewidzialnej nierówności" w świecie, gdzie AI podejmuje decyzje ekonomiczne w imieniu ludzi
• Gotowość rynku: 46% uczestników wyraziło chęć płacenia za podobną usługę, co wskazuje na potencjał komercyjny agentów AI
• Luki prawne: Antropic ostrzega przed brakiem odpowiednich ram prawnych i regulacyjnych dla AI działających w imieniu użytkowników
W grudniu 2025 roku Antropic uruchomiło tygodniowy marketplace dla 69 pracowników swojego biura w San Francisco. Każdy uczestnik otrzymał budżet 100 dolarów, a agenci Claude prowadzili wszystkie negocjacje przez Slack. System działał w czterech równoległych wersjach - w dwóch każdy agent używał najsilniejszego modelu Claude Opus 4.5, a w pozostałych dwóch uczestnicy mieli 50% szansy na otrzymanie słabszego modelu Claude Haiku 4.5.
W pełnej wersji z samymi agentami Opus zamknięto 186 transakcji na ponad 500 ogłoszeniach, obracając łącznie kwotą przekraczającą 4000 dolarów. Agenci AI przejęli całkowicie proces negocjacji - pisali ogłoszenia, znajdowali kupców i sprzedawców, składali oferty i finalizowali transakcje. Ludzie wracali do gry tylko na samym końcu, by fizycznie wymienić przedmioty - od desek snowboardowych po piłeczki pingpongowe.
Różnice między modelami okazały się znaczące w kontekście wartości transakcji. Na przykład laboratoryjnie wyhodowany rubin sprzedał się za 65 dolarów przez agenta Opus, ale tylko za 35 dolarów przez Haiku. Agent Opus rozpoczął od ceny 60 dolarów i został podniesiony przez konkurencyjne licytowanie, podczas gdy Haiku zaczął od 40 dolarów i został zbity w dół.
Szczególnie uderzający był przypadek tego samego zepsutego roweru składanego - agent Opus uzyskał za niego 65 dolarów, podczas gdy Haiku tylko 38 dolarów, mimo że kupiec i sprzedawca byli ci sami. W analizie 161 przedmiotów sprzedanych w co najmniej dwóch z czterech wersji eksperymentu, sprzedawcy używający Opus zarabiali średnio o 2,68 dolara więcej, a kupujący płacili o 2,45 dolara mniej.
Instrukcje negocjacyjne od uczestników miały zaskakująco małe znaczenie. Agresywni sprzedawcy osiągali wprawdzie wyższe ceny, ale tylko dlatego, że ustalali wyższe ceny początkowe. Style negocjacji - od przyjaznego podejścia po agresywne taktyki typu "negocjuj twardo i zaczynaj od niskich ofert" - nie wpływały statystycznie znacząco na końcowe wyniki.
Antropic nazywa wyniki eksperymentu "niepokojącymi implikacjami". Z 28 uczestników, którzy używali obu modeli w różnych wersjach, 17 preferowało sesję z Opus, ale 11 faktycznie wolało Haiku - mimo obiektywnie gorszych wyników finansowych.
Firma ostrzega, że w świecie rzeczywistym, gdzie firmy zastąpiłyby ochotników, zachęty wyglądałyby zupełnie inaczej. Optymalizacja pod kątem uwagi agentów AI mogłaby stać się potężnym narzędziem, które niekoniecznie działa na korzyść ludzi. Pojawiłyby się też nowe problemy bezpieczeństwa, takie jak jailbreaking i wstrzykiwanie promptów w przypadku agentów działających w imieniu użytkowników.
"Ramy polityczne i prawne dotyczące modeli AI, które dokonują transakcji w naszym imieniu, po prostu jeszcze nie istnieją", pisze Antropic, dodając, że "społeczeństwo będzie musiało działać szybko". Firma pyta: "Czy te dynamiki wzmocnią, czy nawet spotęgują istniejące nierówności ekonomiczne?"
Eksperyment pokazuje, że handel z udziałem agentów AI nie jest odległym scenariuszem przyszłości - niemal połowa uczestników zadeklarowała gotowość płacenia za taką usługę już dziś.