10 maja 20264 min czytania

METR osiąga granice testów Claude Mythos, Palo Alto Networks ostrzega przed autonomicznymi atakującymi AI

Claude Mythos jako pierwszy model przekroczył możliwości pomiarowe METR, podczas gdy eksperci ostrzegają przed AI jako autonomicznymi operatorami cyberataków.

Źródło zdjęcia: The Decoder

Poprzedni

Anthropic i OpenAI konsultują etykę AI z przywódcami religijnymi

Następny

Scenarzysta z Hollywood ujawnia: twórcy TV szkolą AI, które może ich zastąpić

Podobne Publikacje

Biznes i Rynek

Robinhood przygotowuje drugi fundusz venture capital po sukcesie inwestycji w AI

Robinhood wprowadza drugi fundusz VC po wzroście pierwszego o ponad 100%. Nowy RVII będzie inwestować w startupy we wczesnych fazach rozwoju.

4 min12 maja

Modele AI

Baidu Ernie 5.1 obniża koszty trenowania o 94% przy wydajności top modeli

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.

4 min

Kluczowe wnioski

Claude Mythos Preview jako pierwszy model osiągnął górną granicę metodologii testowej METR z 50-procentowym wskaźnikiem sukcesu dla zadań 16-godzinnych.

Palo Alto Networks ostrzega przed zmianą zagrożeń, gdyż modele AI działają już jako autonomiczni agenci identyfikujący luki w zabezpieczeniach i łączący je w ścieżki ataków.

Trzy tygodnie analizy opartej na modelach AI dorównały całemu rokowi ręcznych testów penetracyjnych pod względem zakresu i efektywności.

Frontier modele przekroczyły próg z „pomocnego asystenta” do „autonomicznego operatora” dzięki około 50-procentowej poprawie wydajności kodowania.

Czas od uzyskania dostępu do eksfiltracji danych może skrócić się do zaledwie 25 minut przy wsparciu AI.

METR osiąga granice swoich możliwości testowych

Organizacja METR, specjalizująca się w ocenie ryzyka AI, testowała wczesną wersję Claude Mythos Preview w ograniczonym oknie czasowym w marcu 2026 roku. Oszacowała 50-procentowy horyzont czasowy na co najmniej 16 godzin, z 95-procentowym przedziałem ufności od 8,5 do 55 godzin.

Metryka ta opisuje długość zadania, przy której model ma 50-procentową szansę ukończenia zadania, które zajęłoby człowiekowi określony czas. METR używa różnych punktów odniesienia, takich jak trenowanie klasyfikatora (około 45 minut) czy trenowanie odpornego na ataki modelu obrazowego (około czterech godzin).

Według METR, wartość dla Mythos znajduje się „na górnej granicy tego, co możemy zmierzyć bez nowych zadań”. Z 228 zadań w zestawie testowym tylko pięć jest klasyfikowanych jako trwające 16 godzin lub dłużej. To sprawia, że pomiary w tym zakresie są „niestabilne i mniej znaczące niż w zakresach z lepszym pokryciem zadań”.

Palo Alto Networks ostrzega przed autonomicznymi atakującymi AI

Firma cyberbezpieczeństwa Palo Alto Networks oceniła ryzyka związane z frontier modelami takimi jak Claude Mythos z perspektywy bezpieczeństwa. Firma miała „wczesny, nieograniczony dostęp do najnowszych frontier modeli AI”, w tym Mythos, OpenAI's GPT-5.5-Cyber i Claude Opus 4.7.

Palo Alto Networks opisuje to, co zaobserwowała, jako „skokową zmianę możliwości”. Modele wykazały „intuicyjne rozumienie luk w zabezpieczeniach oprogramowania”, przesuwając rolę AI z asystenta na autonomicznego agenta „zdolnego do odkrywania i łączenia luk w skali, na którą większość obrońców nie jest przygotowana”.

Według wpisu na blogu firmy, trzy tygodnie analizy opartej na modelach dorównały całemu rokowi ręcznych testów penetracyjnych, przy szerszym zakresie. W niektórych przypadkach modele połączyły kilka indywidualnie nisko ocenianych luk w krytyczne ścieżki ataków.

Przyszłość cyberbezpieczeństwa w erze autonomicznych AI

Palo Alto Networks szacuje poprawę wydajności kodowania obecnych frontier modeli w porównaniu z poprzednikami na około 50 procent. „Ta liczba brzmi jak przyrostowa zmiana, ale w praktyce to próg, przy którym AI przechodzi z pomocnego asystenta w autonomicznego operatora”, pisze firma.

Dodatkowe ryzyko wiąże się z szybko rosnącą, niemonitorowaną powierzchnią ataku, ponieważ „każdy desktop jest w zasadzie serwerem”, gdy lokalni agenci AI stają się bardziej powszechni. Jednocześnie większość organizacji nie ma wglądu w kod generowany i wdrażany przez ich własnych pracowników.

Niezależne badania potwierdzają wyższy poziom zagrożenia, choć jego rzeczywisty zakres pozostaje niejasny. British AI Security Institute odkrył, że Claude Mythos Preview może przeprowadzać kompleksowe ataki sieciowe, ale zakłada, że początkowo będzie to dotyczyć tylko słabych, niechronionych sieci.

Najnowsze modele AI fundamentalnie zmieniają oblicze cyberbezpieczeństwa, przekształcając się z narzędzi wspomagających w autonomiczne systemy zdolne do przeprowadzania złożonych ataków w rekordowo krótkim czasie.