Anthropic ujawnia szczegóły architektury bezpieczeństwa agentów AI. Claude Opus 4.7 ma zaledwie 0,1% podatności na prompt injection w pojedynczych próbach.

Źródło zdjęcia: anthropic.com
Anthropic opublikowało szczegółowy raport techniczny o metodach zabezpieczania autonomicznych agentów AI w swoich produktach. Dokument ujawnia, jak firma zarządza rosnącym ryzykiem związanym z coraz bardziej zaawansowanymi modelami Claude, które otrzymują dostęp do krytycznych systemów wewnętrznych. Pełny raport techniczny dostępny jest na blogu Anthropic.
Zespół Anthropic wyróżnia trzy główne kategorie zagrożeń bezpieczeństwa dla agentów AI. Pierwszą stanowi niewłaściwe użycie przez użytkownika — sytuacje, gdy użytkownik, celowo lub przez nieostrożność, kieruje agenta do wykonania szkodliwych działań. Może to obejmować prośby o ominięcie irytujących kontroli, uruchamianie destrukcyjnych komend bez ich zrozumienia, czy celowe wyrządzanie szkód.
Drugą kategorię to nieprawidłowe zachowanie modelu — gdy agent podejmuje szkodliwe działania, o które nikt go nie prosił. Jak zauważają inżynierowie, choć modele stają się bardziej zgodne z ocenami behawioralnymi, ryzyko niekoniecznie maleje. Mniej zdolne modele częściej źle odczytują sytuację i popełniają oczywiste błędy, ale bardziej zdolne modele, choć rzadziej się mylą, lepiej znajdują nieoczekiwane ścieżki do celu, często omijając ograniczenia, których nikt nie pomyślał zapisać.
Trzecią kategorię stanowią zewnętrzni atakujący — sytuacje, gdy agent zostaje zaatakowany poprzez zewnętrzne wektory, takie jak narzędzia, pliki czy dostęp sieciowy. Ta kategoria obejmuje zarówno prompt injection, jak i konwencjonalne ataki na środowisko wykonawcze agenta, warstwę orkiestracji czy proxy.
W odpowiedzi na te zagrożenia Anthropic stosuje zabezpieczenia na trzech poziomach. Środowisko wykonania agenta ograniczane jest poprzez sandboxe procesów, maszyny wirtualne, granice systemów plików i kontrole ruchu wychodzącego. Celem jest ustalenie twardej granicy tego, do czego agent może dotrzeć. Jak wyjaśniają inżynierowie, jeśli dane uwierzytelniające nigdy nie wchodzą do sandboxa, nie mogą zostać wykradzione, niezależnie od przyczyny — czy to działań użytkownika, modelu znajdującego „kreatywną” ścieżkę, czy atakującego.
Model konsultowany przez agenta zabezpieczany jest poprzez system promptów, klasyfikatory, sondy i modyfikacje treningu. Ponieważ modele są probabilistyczne, te mechanizmy kształtują jedynie to, co agent ma tendencję robić, a nie to, do czego jest teoretycznie zdolny.
Zewnętrzna zawartość dostępna dla agenta stanowi szczególne wyzwanie. Serwery MCP, wtyczki stron trzecich i narzędzia wyszukiwania internetowego wprowadzają treści z niekontrolowanych źródeł bezpośrednio do kontekstu agenta. Jak zauważają eksperci, sprawdzony konektor to nie to samo co sprawdzone dane — konektor GitHub może na przykład załadować zatruty plik README bezpośrednio do kontekstu modelu, mimo przejścia kontroli antywirysowych.
Firma rozwinęła trzy główne produkty agentowe w ciągu ostatnich dwóch lat: claude.ai, Claude Code i Claude Cowork, z których każdy obsługuje różne audytorium i wymaga odmiennej architektury zabezpieczeń. Doświadczenia z tych wdrożeń pokazują, że choć obrona na poziomie modelu jest silna, nigdy nie będzie w 100% skuteczna, dlatego nie może działać w izolacji.

Jensen Huang przedstawił wizję całkowicie nowej kategorii laptopów AI. Redaktorzy The Vergecast analizują, czy przemysł rzeczywiście potrzebuje takiej rewolucji.
Innowacyjna gra ekonomiczna, gdzie każdy agent działa na innym małym modelu językowym z czterech laboratoriów — od OpenAI po NVIDIA.

Badacze udowodnili, że grafy wizualne znacznie przewyższają reprezentacje tekstowe w zadaniach rozumowania AI, otwierając nowe możliwości rozwoju.