12 czerwca 20264 min czytania

Claude Fable 5 kosztuje dwukrotnie więcej za 5,7% wyższą wydajność

Nowy flagowy model Anthropic zajął pierwsze miejsce w rankingu AI, ale oferuje jedynie marginalny wzrost wydajności przy podwojeniu cen tokenów.

Źródło zdjęcia: The Decoder

Anthropic wypuściła nowy flagowy model Claude Fable 5, który zajął pierwsze miejsce w rankingu Artificial Analysis Intelligence Index, wyprzedzając konkurencyjne modele, w tym GPT-5.5. Model oferuje jednak jedynie 5,7 procent wyższą wydajność niż poprzednik przy dwukrotnie wyższych kosztach użytkowania, jak wynika z analizy opublikowanej przez The Decoder.

Claude Fable 5 osiągnął 64,9 punktów w indeksie Artificial Analysis, zapewniając sobie około pięciopunktową przewagę nad najlepszym modelem spoza Anthropic — GPT-5.5. Dzięki temu Anthropic kontroluje obecnie dwa pierwsze miejsca w rankingu.

Kluczowe wnioski

Claude Fable 5 kosztuje 10 dolarów za milion tokenów wejściowych i 50 dolarów za tokeny wyjściowe — dwukrotnie więcej niż poprzednik Opus 4.8.
Pełna ewaluacja w ramach Intelligence Index kosztuje prawie 10 000 dolarów, podczas gdy dla Opus 4.8 wynosi około 5000 dolarów.
Wzrost wydajności względem poprzednika wynosi jedynie 5,7 procent mimo podwojenia cen.
Model ustanowił rekordy w pięciu z dziesięciu benchmarków składających się na Intelligence Index.
Dodatkowe filtry bezpieczeństwa powodują przekierowania do tańszego modelu w około 8 procent przypadków, co dodatkowo zwiększa koszty.

Rekordowe wyniki przy wysokich kosztach

Claude Fable 5 osiągnął najlepsze rezultaty w większości testów porównawczych. W benchmarku AA-Omniscience, który mierzy wiedzę i skłonność do halucynacji, model uzyskał 40 punktów — o siedem więcej niż dotychczasowy lider Gemini 3.1 Pro Preview. Przewaga wynika głównie z wyższej dokładności, a nie niższego wskaźnika halucynacji, gdzie model plasuje się w środku stawki z wynikiem 55 procent.

W zadaniach agentowych Anthropic jeszcze bardziej umocniła swoją pozycję. Na benchmarku GDPval-AA, który testuje wiedzę praktyczną, Fable 5 osiągnął rating Elo 1932, co oznacza wzrost o 2,2 procent względem Opus 4.8 (1890 punktów). Model przewodził również w testach Terminal-Bench Hard dla kodowania agentowego oraz Tau2-bench Telecom dla użycia narzędzi.

W teście Humanity's Last Exam model osiągnął 53 procent, wyprzedzając Opus 4.8 o ponad siedem punktów procentowych. Pojedyncza ewaluacja HLE z mechanizmem fallback kosztuje około 2200 dolarów — najwięcej ze wszystkich modeli testowanych przez Artificial Analysis.

Filtry bezpieczeństwa windują koszty

Fable 5 wykorzystuje ten sam model bazowy co Claude Mythos 5, ale z dodatkowymi zabezpieczeniami dla zapytań dotyczących cyberbezpieczeństwa, biologii, chemii i destylacji modeli. Gdy filtr zostanie uruchomiony, zapytanie trafia do tańszego modelu Opus 4.8, ale nadal jest liczone do rozliczenia.

Anthropic twierdzi, że mniej niż pięć procent sesji jest dotkniętych przekierowaniami. Jednak Artificial Analysis zmierzyła wskaźnik fallback na poziomie około ośmiu procent podczas ewaluacji Intelligence Index, głównie przy pytaniach naukowych z testów GPQA, AA-Omniscience i Humanity's Last Exam. W samym teście HLE wskaźnik przekierowań osiągnął dziewięć procent.

Dostęp do Fable 5 jest ograniczony czasowo. Subskrybenci planów Pro, Max, Team i Enterprise mogą korzystać z modelu do 22 czerwca, przy czym użytkowanie jest liczone po podwójnej stawce względem Opus. Później zostanie wprowadzone rozliczanie oparte na kredytach, co jeszcze bardziej zwiększy koszty.

Nowy model Anthropic pokazuje, że liderzy rynku coraz częściej oferują marginalne ulepszenia za znacznie wyższe ceny, co zmusza przedsiębiorstwa do starannego rozważenia, które przypadki użycia rzeczywiście uzasadniają podwojenie kosztów za około pięcioprocentowy wzrost wydajności.

#benchmarki AI #Anthropic #koszty modeli #GPT-5.5 #Claude Fable 5

Udostępnij

Źródła

The Decoder

Poprzedni

Siri AI w końcu działa poprawnie — redaktorzy The Verge testują nowego asystenta Apple

Następny

Claude Fable 5 wyprzedza GPT-5.5 o 13 punktów w najtrudniejszych zadaniach matematycznych

Podobne Publikacje

Etyka i Bezpieczeństwo

Szef Anthropic odpowiada na kontrowersje: nie sprzeciwia się modelom o otwartych wagach, ale obawia się chińskiej AI

Dario Amodei zaprzecza, że Anthropic popiera zakaz modeli o otwartych wagach, ale wyraża obawy dotyczące rządów autorytarnych wykorzystujących AI.

4 min28 lipca

Etyka i Bezpieczeństwo

Hugging Face ma problem z deepfake'ami pornograficznymi tworzonymi bez zgody

Badania ujawniają, że 7 z 9 głównych narzędzi AI na platformie Hugging Face łatwo tworzy nagie zdjęcia kobiet. 73% próśb użytkowników ma charakter seksualny.

4 min28 lipca

Modele AI

Google wypuszcza model Gemini Spark, ale Europa musi czekać

Nowy model AI Gemini Spark trafia do pierwszych użytkowników, ale europejscy klienci nie mają do niego dostępu. Google wprowadza kolejne ograniczenia geograficzne.

2 min24 lipca

Kluczowe wnioski

Claude Fable 5 kosztuje 10 dolarów za milion tokenów wejściowych i 50 dolarów za tokeny wyjściowe — dwukrotnie więcej niż poprzednik Opus 4.8.

Pełna ewaluacja w ramach Intelligence Index kosztuje prawie 10 000 dolarów, podczas gdy dla Opus 4.8 wynosi około 5000 dolarów.

Wzrost wydajności względem poprzednika wynosi jedynie 5,7 procent mimo podwojenia cen.

Model ustanowił rekordy w pięciu z dziesięciu benchmarków składających się na Intelligence Index.

Dodatkowe filtry bezpieczeństwa powodują przekierowania do tańszego modelu w około 8 procent przypadków, co dodatkowo zwiększa koszty.

Rekordowe wyniki przy wysokich kosztach

Filtry bezpieczeństwa windują koszty