Rząd USA nakazał Anthropic wyłączenie Claude Fable 5 i Mythos 5 po odkryciu metody omijania zabezpieczeń modeli AI. Firma spiera się z administracją Trumpa.

Źródło zdjęcia: WIRED
Anthropic tymczasowo wyłącza swoje najnowsze modele AI Claude Fable 5 i Mythos 5 po otrzymaniu piątkowego nakazu od rządu USA. Decyzja ma związek z obawami o bezpieczeństwo narodowe, jak podaje Wired.
Incydent stanowi kolejny punkt zapalny w relacjach między Anthropic a administracją Trumpa. Firma twierdzi, że choć nakaz dotyczył ograniczenia dostępu dla obcokrajowców, zdecydowała się wyłączyć modele dla wszystkich użytkowników, aby zapewnić pełną zgodność z rozporządzeniem.
Napięcia między Anthropic a rządem USA narastają od miesięcy. Wcześniej w tym roku Departament Obrony oznaczył producenta Claude'a jako „ryzyko w łańcuchu dostaw” po tym, jak firma próbowała wyznaczyć czerwone linie dotyczące wykorzystania jej technologii przez amerykańskie wojsko. Oznaczenie to skutecznie uniemożliwiło agencjom rządowym i wykonawcom korzystanie z technologii Anthropic. W odpowiedzi firma złożyła pozwy przeciwko administracji Trumpa.
Claude Fable 5 został publicznie wydany we wtorek jako wersja modelu Mythos AI z zabezpieczeniami zapobiegającymi odpowiedziom na pytania dotyczące cyberbezpieczeństwa, biologii i chemii. Przed publicznym wydaniem, które według Anthropic odbyło się we współpracy z rządem USA, model Mythos Preview miał ograniczone wprowadzenie w kwietniu. Celem było umożliwienie firmom i organizacjom wykorzystania jego potężnych możliwości cyberbezpieczeństwa do poprawy ich obrony oraz złagodzenie obaw, że technologia może zostać wykorzystana przez złych aktorów do opracowania potężnych narzędzi hakerskich.
W piątkowym wpisie na blogu Anthropic ujawniło, że otrzymało pismo od rządu USA o godz. 17:21. „Pismo nie zawierało szczegółowych informacji o jego obawach dotyczących bezpieczeństwa narodowego”, napisała firma.
„Nasze rozumienie jest takie, że rząd uważa, iż stał się świadomy metody omijania, czyli 'jailbreakingu' Fable 5”, dodała firma. „Przeanalizowaliśmy demonstrację tej konkretnej techniki używanej do identyfikacji niewielkiej liczby wcześniej znanych, drobnych luk. Wszystkie te luki wydają się względnie proste, a stwierdziliśmy, że inne publicznie dostępne modele są również w stanie je odkryć bez konieczności omijania zabezpieczeń.”
W swoim wpisie firma argumentowała, że wdrożyła silne zabezpieczenia w celu zmniejszenia prawdopodobieństwa niewłaściwego wykorzystania Claude Fable 5. Anthropic twierdziło również, że jailbreak znaleziony przez rząd USA był wąski i nie uczyniłby atakującego znacznie bardziej niebezpiecznym, niż byłby z innym modelem AI.
„Do tej pory rząd przekazał nam tylko werbalny dowód na potencjalny wąski, nieuniwersalny jailbreak, który zasadniczo polega na poproszeniu modelu o przeczytanie określonej bazy kodu i naprawienie wszelkich błędów oprogramowania”, stwierdziła firma w swoim wpisie na blogu.
Rzecznik Białego Domu i Departamentu Handlu USA nie odpowiedzieli natychmiast na prośbę WIRED o komentarz.
CEO Anthropic Dario Amodei powiedział w eseju politycznym opublikowanym wcześniej w tym tygodniu, że on i firma popierają uczciwy, ustrukturyzowany i transparentny proces rządowy, który zablokowałby wydanie niebezpiecznych modeli AI. W piątkowym wpisie na blogu Anthropic argumentowało, że „to działanie nie przestrzega tych zasad”.

Eksperci kwestionują zarzuty republikańskich polityków i inwestorów o chińskie finansowanie amerykańskiej opozycji wobec centrów danych AI.
Model Rio-3.5-Open-397B okazał się 60% Nex i 40% Qwen. Po usunięciu komunikatu systemowego identyfikuje się jako Nex w 79% przypadków.

Nowy model Anthropic osiągnął 88% dokładności w FrontierMath tier 4, podczas gdy GPT-5.5 uzyskał 75%. Przełom w matematycznym rozumowaniu AI.