Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy Super-Agent, oferując 84% skuteczności w Online-Mind2Web i tryb szybki 3x tańszy.

Źródło zdjęcia: anthropic.com
Anthropic udostępniła nową wersję swojego najlepszego modelu AI — Claude Opus 4.8. Aktualizacja przynosi znaczące usprawnienia w zakresie kodowania, zadań agentowych i praktycznych aplikacji biznesowych. Model jest dostępny już dziś w tej samej cenie co poprzednik, informuje oficjalnie Anthropic.
Nowa wersja wprowadza także kilka przełomowych funkcji. Użytkownicy claude.ai otrzymali kontrolę nad poziomem zaangażowania modelu w wykonywane zadania. Claude Code zyskał funkcję „dynamicznych workflow”, która umożliwia rozwiązywanie problemów na bardzo dużą skalę. Dodatkowo tryb szybki dla Opus 4.8 — pozwalający modelowi pracować z 2,5-krotnie wyższą prędkością — jest teraz trzy razy tańszy niż w poprzednich wersjach.
Testerzy zgłaszają, że Opus 4.8 wykazuje znacznie lepszą ocenę sytuacji podczas wykonywania zadań agentowych. Model zadaje właściwe pytania, wychwytuje własne błędy i kwestionuje niesolidne plany przed wprowadzeniem większych zmian. W benchmark CursorBench nowa wersja przewyższa poprzednie modele Opus na każdym poziomie zaangażowania, wykorzystując mniej kroków przy tej samej inteligencji.
Szczególnie imponujące są wyniki w dziedzinie prawa — Opus 4.8 osiągnął najwyższy wynik w Legal Agent Benchmark i jako pierwszy model przekroczył 10% w standardzie all-pass. Jeden z testerów zauważa: „To rodzaj poprawy dokładności, który przekłada się bezpośrednio na to, ile prawdziwej pracy prawniczej nasi klienci mogą przekazać z pewnością siebie”.
Jednym z najbardziej zauważalnych ulepszeń Opus 4.8 jest jego szczerość. Model rzadziej wyciąga pochopne wnioski i częściej sygnalizuje niepewności dotyczące swojej pracy. Ewaluacje pokazują, że jest około cztery razy mniej prawdopodobne, że pozwoli na przeoczenie wad w napisanym przez siebie kodzie.
Zespół Alignment stwierdził, że Opus 4.8 „osiąga nowe maksima w naszych pomiarach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie”. Model wykazuje także znacznie niższe wskaźniki niewłaściwych zachowań w porównaniu do Opus 4.7.
Claude Opus 4.8 reprezentuje kolejny krok w rozwoju zaawansowanych modeli AI, oferując użytkownikom narzędzie bardziej niezawodne i efektywne w zadaniach wymagających złożonego rozumowania i autonomicznego działania.

Nowe rozporządzenie Trumpa tworzy dobrowolne ramy dla firm AI do przekazywania modeli na testy bezpieczeństwa. Google, Microsoft i xAI już się zgodziły.

xAI wykorzystywało przez miesiące odpowiedzi Claude do trenowania własnych modeli kodowania, zanim Anthropic odcięło dostęp w styczniu.

National Weather Service wykorzystuje AI do błyskawicznego tłumaczenia ostrzeżeń meteorologicznych dla 69 mln mieszkańców mówiących w domu w językach innych niż angielski.