28 maja 20264 min czytania

Anthropic wypuszcza Claude Opus 4.8 z przełomowymi ulepszeniami w kodowaniu i zadaniach agentowych

Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy Super-Agent, oferując 84% skuteczności w Online-Mind2Web i tryb szybki 3x tańszy.

Źródło zdjęcia: anthropic.com

Anthropic udostępniła nową wersję swojego najlepszego modelu AI — Claude Opus 4.8. Aktualizacja przynosi znaczące usprawnienia w zakresie kodowania, zadań agentowych i praktycznych aplikacji biznesowych. Model jest dostępny już dziś w tej samej cenie co poprzednik, informuje oficjalnie Anthropic.

Nowa wersja wprowadza także kilka przełomowych funkcji. Użytkownicy claude.ai otrzymali kontrolę nad poziomem zaangażowania modelu w wykonywane zadania. Claude Code zyskał funkcję „dynamicznych workflow”, która umożliwia rozwiązywanie problemów na bardzo dużą skalę. Dodatkowo tryb szybki dla Opus 4.8 — pozwalający modelowi pracować z 2,5-krotnie wyższą prędkością — jest teraz trzy razy tańszy niż w poprzednich wersjach.

Kluczowe wnioski

Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy w benchmark Super-Agent, pokonując poprzednie wersje Opus i GPT-5.5 przy równych kosztach.
Model jest cztery razy mniej skłonny do pozostawiania niezauważonych błędów w kodzie w porównaniu do swojego poprzednika.
W testach Online-Mind2Web model osiągnął 84% skuteczności, co stanowi znaczący skok względem Opus 4.7 i GPT-5.5.
Tryb szybki jest teraz trzy razy tańszy niż w poprzednich modelach, przy jednoczesnym wzroście prędkości o 2,5-krotnie.
Model przeszedł kompleksową ocenę alignment, wykazując najwyższe wyniki w zakresie cech prospołecznych i najniższe wskaźniki niewłaściwych zachowań.

Przełom w zadaniach agentowych i kodowaniu

Testerzy zgłaszają, że Opus 4.8 wykazuje znacznie lepszą ocenę sytuacji podczas wykonywania zadań agentowych. Model zadaje właściwe pytania, wychwytuje własne błędy i kwestionuje niesolidne plany przed wprowadzeniem większych zmian. W benchmark CursorBench nowa wersja przewyższa poprzednie modele Opus na każdym poziomie zaangażowania, wykorzystując mniej kroków przy tej samej inteligencji.

Szczególnie imponujące są wyniki w dziedzinie prawa — Opus 4.8 osiągnął najwyższy wynik w Legal Agent Benchmark i jako pierwszy model przekroczył 10% w standardzie all-pass. Jeden z testerów zauważa: „To rodzaj poprawy dokładności, który przekłada się bezpośrednio na to, ile prawdziwej pracy prawniczej nasi klienci mogą przekazać z pewnością siebie”.

Większa szczerość i niezawodność

Jednym z najbardziej zauważalnych ulepszeń Opus 4.8 jest jego szczerość. Model rzadziej wyciąga pochopne wnioski i częściej sygnalizuje niepewności dotyczące swojej pracy. Ewaluacje pokazują, że jest około cztery razy mniej prawdopodobne, że pozwoli na przeoczenie wad w napisanym przez siebie kodzie.

Zespół Alignment stwierdził, że Opus 4.8 „osiąga nowe maksima w naszych pomiarach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie”. Model wykazuje także znacznie niższe wskaźniki niewłaściwych zachowań w porównaniu do Opus 4.7.

Claude Opus 4.8 reprezentuje kolejny krok w rozwoju zaawansowanych modeli AI, oferując użytkownikom narzędzie bardziej niezawodne i efektywne w zadaniach wymagających złożonego rozumowania i autonomicznego działania.

#Anthropic #Opus 4.8 #Claude #AI agenty #modele językowe

Udostępnij

Źródła

Hacker News AI

Poprzedni

Claude Opus 4.8 będzie bardziej uczciwy w raportowaniu błędów

Następny

OpenAI udostępnia bezpłatnie model AI do nauk biologicznych w ramach programu bioobronności

Podobne Publikacje

Badania i Nauka

Nowy framework Causal-Audit wprowadza przejrzyste rozumowanie przyczynowe w modelach AI

Naukowcy opracowali metodę, która oferuje weryfikowalne ścieżki wnioskowania przyczynowego w AI, przewyższając tradycyjne podejścia LLM.

4 min20 lipca

Biznes i Rynek

Wistron otwiera fabrykę superchipów NVIDIA za 700 mln dolarów w Teksasie

Tajwańska firma Wistron uruchomiła pierwszą amerykańską fabrykę w Fort Worth, produkującą superchipy AI NVIDIA za 700 mln dolarów.

4 min22 lipca

Badania i Nauka

Nowe badanie: modele AI wykazują minimalną skłonność do poszukiwania władzy

Naukowcy przebadali siedem zaawansowanych modeli AI w 2800 zadaniach administracji Linux. Wyniki pokazują skłonność do poszukiwania władzy na poziomie 0–5%.

3 min22 lipca

Kluczowe wnioski

Claude Opus 4.8 jako pierwszy model ukończył wszystkie testy w benchmark Super-Agent, pokonując poprzednie wersje Opus i GPT-5.5 przy równych kosztach.

Model jest cztery razy mniej skłonny do pozostawiania niezauważonych błędów w kodzie w porównaniu do swojego poprzednika.

W testach Online-Mind2Web model osiągnął 84% skuteczności, co stanowi znaczący skok względem Opus 4.7 i GPT-5.5.

Tryb szybki jest teraz trzy razy tańszy niż w poprzednich modelach, przy jednoczesnym wzroście prędkości o 2,5-krotnie.

Model przeszedł kompleksową ocenę alignment, wykazując najwyższe wyniki w zakresie cech prospołecznych i najniższe wskaźniki niewłaściwych zachowań.

Przełom w zadaniach agentowych i kodowaniu

Większa szczerość i niezawodność