Nowy flagowy model Anthropic zajął pierwsze miejsce w rankingu AI, ale oferuje jedynie marginalny wzrost wydajności przy podwojeniu cen tokenów.

Źródło zdjęcia: The Decoder
Anthropic wypuściła nowy flagowy model Claude Fable 5, który zajął pierwsze miejsce w rankingu Artificial Analysis Intelligence Index, wyprzedzając konkurencyjne modele, w tym GPT-5.5. Model oferuje jednak jedynie 5,7 procent wyższą wydajność niż poprzednik przy dwukrotnie wyższych kosztach użytkowania, jak wynika z analizy opublikowanej przez The Decoder.
Claude Fable 5 osiągnął 64,9 punktów w indeksie Artificial Analysis, zapewniając sobie około pięciopunktową przewagę nad najlepszym modelem spoza Anthropic — GPT-5.5. Dzięki temu Anthropic kontroluje obecnie dwa pierwsze miejsca w rankingu.
Claude Fable 5 osiągnął najlepsze rezultaty w większości testów porównawczych. W benchmarku AA-Omniscience, który mierzy wiedzę i skłonność do halucynacji, model uzyskał 40 punktów — o siedem więcej niż dotychczasowy lider Gemini 3.1 Pro Preview. Przewaga wynika głównie z wyższej dokładności, a nie niższego wskaźnika halucynacji, gdzie model plasuje się w środku stawki z wynikiem 55 procent.
W zadaniach agentowych Anthropic jeszcze bardziej umocniła swoją pozycję. Na benchmarku GDPval-AA, który testuje wiedzę praktyczną, Fable 5 osiągnął rating Elo 1932, co oznacza wzrost o 2,2 procent względem Opus 4.8 (1890 punktów). Model przewodził również w testach Terminal-Bench Hard dla kodowania agentowego oraz Tau2-bench Telecom dla użycia narzędzi.
W teście Humanity's Last Exam model osiągnął 53 procent, wyprzedzając Opus 4.8 o ponad siedem punktów procentowych. Pojedyncza ewaluacja HLE z mechanizmem fallback kosztuje około 2200 dolarów — najwięcej ze wszystkich modeli testowanych przez Artificial Analysis.
Fable 5 wykorzystuje ten sam model bazowy co Claude Mythos 5, ale z dodatkowymi zabezpieczeniami dla zapytań dotyczących cyberbezpieczeństwa, biologii, chemii i destylacji modeli. Gdy filtr zostanie uruchomiony, zapytanie trafia do tańszego modelu Opus 4.8, ale nadal jest liczone do rozliczenia.
Anthropic twierdzi, że mniej niż pięć procent sesji jest dotkniętych przekierowaniami. Jednak Artificial Analysis zmierzyła wskaźnik fallback na poziomie około ośmiu procent podczas ewaluacji Intelligence Index, głównie przy pytaniach naukowych z testów GPQA, AA-Omniscience i Humanity's Last Exam. W samym teście HLE wskaźnik przekierowań osiągnął dziewięć procent.
Dostęp do Fable 5 jest ograniczony czasowo. Subskrybenci planów Pro, Max, Team i Enterprise mogą korzystać z modelu do 22 czerwca, przy czym użytkowanie jest liczone po podwójnej stawce względem Opus. Później zostanie wprowadzone rozliczanie oparte na kredytach, co jeszcze bardziej zwiększy koszty.
Nowy model Anthropic pokazuje, że liderzy rynku coraz częściej oferują marginalne ulepszenia za znacznie wyższe ceny, co zmusza przedsiębiorstwa do starannego rozważenia, które przypadki użycia rzeczywiście uzasadniają podwojenie kosztów za około pięcioprocentowy wzrost wydajności.

Google modernizuje NotebookLM — każdy notatnik otrzymuje dedykowany komputer w chmurze z możliwością pisania i uruchamiania kodu oraz funkcjami agentowymi.

Google aktualizuje NotebookLM o model Gemini 3.5, wyszukiwanie źródeł przez AI i możliwość uruchamiania kodu w chmurze. Nowe formaty eksportu i ulepszone badania.

Tryb AI w telewizorach Samsung automatycznie dostosowuje obraz i dźwięk. Procesor z 128 sieciami neuronowymi poprawia jakość transmisji sportowych i filmów.