25 kwietnia 20264 min czytania

Eksperyment Anthropic: silniejsze modele AI zawierają lepsze transakcje, a przegrani o tym nie wiedzą

Badanie Claude pokazało, że użytkownicy słabszych agentów AI tracą pieniądze w negocjacjach, ale oceniają sprawiedliwość transakcji tak samo wysoko jak ci z lepszymi modelami.

Źródło zdjęcia: The Decoder

Poprzedni

Naukowcy rozwiązali problem oceny AI w systemach moderacji treści

Następny

COSPLAY: Przełomowy framework koewolucji agentów AI do zadań długoterminowych

Podobne Publikacje

Badania i Nauka

COSPLAY: Przełomowy framework koewolucji agentów AI do zadań długoterminowych

Naukowcy opracowali COSPLAY - system dwóch współpracujących agentów AI, który osiąga 25,1% poprawę wydajności w długoterminowym planowaniu.

4 min25 kwietnia 2026

Badania i Nauka

Naukowcy rozwiązali problem oceny AI w systemach moderacji treści

Nowe badanie wprowadza Indeks Obronności i metryki oparte na polityce zarządzania, wykazując 33-46% różnicę w ocenie systemów AI.

4 min25 kwietnia 2026

Kluczowe wnioski

• Przewaga silniejszych modeli: Claude Opus zawierał średnio o dwie transakcje więcej niż Claude Haiku i uzyskiwał o 3,64 dolara wyższą cenę za te same przedmioty

• Nieświadomość strat: Użytkownicy słabszych agentów oceniali sprawiedliwość transakcji na podobnym poziomie (4,06 vs 4,05 na skali 1-7), mimo obiektywnie gorszych wyników

• Niewidoczna nierówność: Badanie ujawniło ryzyko powstania "niewidzialnej nierówności" w świecie, gdzie AI podejmuje decyzje ekonomiczne w imieniu ludzi

• Gotowość rynku: 46% uczestników wyraziło chęć płacenia za podobną usługę, co wskazuje na potencjał komercyjny agentów AI

• Luki prawne: Antropic ostrzega przed brakiem odpowiednich ram prawnych i regulacyjnych dla AI działających w imieniu użytkowników

Eksperyment "Project Deal" w praktyce

W grudniu 2025 roku Antropic uruchomiło tygodniowy marketplace dla 69 pracowników swojego biura w San Francisco. Każdy uczestnik otrzymał budżet 100 dolarów, a agenci Claude prowadzili wszystkie negocjacje przez Slack. System działał w czterech równoległych wersjach - w dwóch każdy agent używał najsilniejszego modelu Claude Opus 4.5, a w pozostałych dwóch uczestnicy mieli 50% szansy na otrzymanie słabszego modelu Claude Haiku 4.5.

W pełnej wersji z samymi agentami Opus zamknięto 186 transakcji na ponad 500 ogłoszeniach, obracając łącznie kwotą przekraczającą 4000 dolarów. Agenci AI przejęli całkowicie proces negocjacji - pisali ogłoszenia, znajdowali kupców i sprzedawców, składali oferty i finalizowali transakcje. Ludzie wracali do gry tylko na samym końcu, by fizycznie wymienić przedmioty - od desek snowboardowych po piłeczki pingpongowe.

Konkretne różnice w wynikach

Różnice między modelami okazały się znaczące w kontekście wartości transakcji. Na przykład laboratoryjnie wyhodowany rubin sprzedał się za 65 dolarów przez agenta Opus, ale tylko za 35 dolarów przez Haiku. Agent Opus rozpoczął od ceny 60 dolarów i został podniesiony przez konkurencyjne licytowanie, podczas gdy Haiku zaczął od 40 dolarów i został zbity w dół.

Szczególnie uderzający był przypadek tego samego zepsutego roweru składanego - agent Opus uzyskał za niego 65 dolarów, podczas gdy Haiku tylko 38 dolarów, mimo że kupiec i sprzedawca byli ci sami. W analizie 161 przedmiotów sprzedanych w co najmniej dwóch z czterech wersji eksperymentu, sprzedawcy używający Opus zarabiali średnio o 2,68 dolara więcej, a kupujący płacili o 2,45 dolara mniej.

Instrukcje negocjacyjne od uczestników miały zaskakująco małe znaczenie. Agresywni sprzedawcy osiągali wprawdzie wyższe ceny, ale tylko dlatego, że ustalali wyższe ceny początkowe. Style negocjacji - od przyjaznego podejścia po agresywne taktyki typu "negocjuj twardo i zaczynaj od niskich ofert" - nie wpływały statystycznie znacząco na końcowe wyniki.

Implikacje dla przyszłości AI

Antropic nazywa wyniki eksperymentu "niepokojącymi implikacjami". Z 28 uczestników, którzy używali obu modeli w różnych wersjach, 17 preferowało sesję z Opus, ale 11 faktycznie wolało Haiku - mimo obiektywnie gorszych wyników finansowych.

Firma ostrzega, że w świecie rzeczywistym, gdzie firmy zastąpiłyby ochotników, zachęty wyglądałyby zupełnie inaczej. Optymalizacja pod kątem uwagi agentów AI mogłaby stać się potężnym narzędziem, które niekoniecznie działa na korzyść ludzi. Pojawiłyby się też nowe problemy bezpieczeństwa, takie jak jailbreaking i wstrzykiwanie promptów w przypadku agentów działających w imieniu użytkowników.

"Ramy polityczne i prawne dotyczące modeli AI, które dokonują transakcji w naszym imieniu, po prostu jeszcze nie istnieją", pisze Antropic, dodając, że "społeczeństwo będzie musiało działać szybko". Firma pyta: "Czy te dynamiki wzmocnią, czy nawet spotęgują istniejące nierówności ekonomiczne?"

Eksperyment pokazuje, że handel z udziałem agentów AI nie jest odległym scenariuszem przyszłości - niemal połowa uczestników zadeklarowała gotowość płacenia za taką usługę już dziś.

Podobne Publikacje

COSPLAY: Przełomowy framework koewolucji agentów AI do zadań długoterminowych

Naukowcy rozwiązali problem oceny AI w systemach moderacji treści

Kluczowe wnioski

Eksperyment "Project Deal" w praktyce

Konkretne różnice w wynikach

Implikacje dla przyszłości AI

Źródła