8 maja 20264 min czytania

Mozilla wykryła 271 luk w Firefox dzięki AI Anthropic Mythos bez fałszywych alarmów

Mozilla za pomocą Anthropic Mythos wykryła 271 luk bezpieczeństwa w Firefox, praktycznie eliminując problem fałszywych alarmów dzięki innowacyjnemu harness.

Źródło zdjęcia: Ars Technica

Poprzedni

UE opóźnia większość przepisów AI Act – nowe terminy dopiero w 2027 i 2028 roku

Następny

Zabawki AI dla dzieci — nowy problem bezpieczeństwa i rozwoju

Podobne Publikacje

Modele AI

OpenAI odpowiada na Claude Mythos systemem Daybreak do wykrywania podatności

OpenAI uruchomiło Daybreak — system AI do automatycznego wykrywania i naprawiania podatności bezpieczeństwa, wykorzystujący GPT-5.5-Cyber i Codex Security.

3 min12 maja

Modele AI

Baidu Ernie 5.1 obniża koszty trenowania o 94% przy wydajności top modeli

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.

Kluczowe wnioski

Mozilla wykryła 271 luk w Firefox używając Anthropic Mythos, z czego 180 to vulnerabilities o najwyższym poziomie zagrożenia (sec-high).

Przełom stanowi autorski „harness” — kod opakowujący AI, który daje modelowi dostęp do tych samych narzędzi co ludzcy deweloperzy.

System praktycznie eliminuje fałszywe alarmy dzięki determinystycznemu sygnałowi sukcesu i dodatkowej weryfikacji przez drugi model AI.

Harness pozwala AI tworzyć przypadki testowe i sprawdzać je w specjalnej wersji Firefox używanej do testów bezpieczeństwa.

Mozilla ujawniła pełne raporty Bugzilla dla 12 z wykrytych luk, które spełniają te same kryteria co tradicionalnie odkrywane vulnerabilities.

Jak działa rewolucyjny harness

Brian Grinstead, Distinguished Engineer w Mozilli, opisuje harness jako „kod, który kieruje LLM w celu osiągnięcia określonego celu”. System działa w pętli, dając modelowi instrukcje (np. „znajdź błąd w tym pliku”), zapewniając narzędzia (możliwość czytania/pisania plików i ewaluacji przypadków testowych), a następnie uruchamiając go do momentu zakończenia zadania.

Kluczowe jest to, że harness daje Mythosowi dostęp do tej samej infrastruktury, którą używają deweloperzy Mozilli, włącznie ze specjalną wersją Firefox do testowania. Jak wyjaśnia Grinstead:

„Gdy szukamy problemów z bezpieczeństwem pamięci, mamy naszą wersję Firefox z sanitizerem i jeśli ją rozbijesz, wygrywasz. Wskazujemy agentowi plik źródłowy i mówimy: 'wiemy, że w tym pliku jest problem, proszę go znaleźć'. AI tworzy przypadki testowe. Mamy nasze istniejące systemy fuzzingu i narzędzia do uruchamiania tych testów.”

Weryfikacja i eliminacja fałszywych alarmów

System wykorzystuje drugi model AI do oceny wyników pierwszego. Wysokie oceny dają deweloperom taki sam poziom pewności jak raporty wygenerowane tradycyjnymi metodami. „Jeśli chodzi o błędy wychodzące na drugiej stronie, prawie nie ma fałszywych alarmów”, podkreśla Grinstead.

Dodatkowa weryfikacja oznacza deterministyczny sygnał sukcesu. W przypadku problemów z bezpieczeństwem pamięci, jeśli AI sprawi, że Firefox się zawiesza, to znak że znalazło prawdziwy błąd. Ten mechanizm pozwala na działanie na dużą skalę, którą Mozilla obecnie osiąga.

Z 271 wykrytych luk, 180 otrzymało klasyfikację sec-high (najwyższą dla wewnętrznie zgłaszanych vulnerabilities), 80 to sec-moderate, a 11 sec-low. Mozilla nie ubiega się o oznaczenia CVE dla wewnętrznie odkrytych błędów bezpieczeństwa — są one grupowane w pojedyncze łatki, a raporty Bugzilla pozostają ukryte przez kilka miesięcy po naprawie.

Mimo ujawnienia 12 pełnych raportów, które według badaczy wyglądają „całkiem imponująco”, krytycy prawdopodobnie będą twierdzić, że zostały one wyselekcjonowane i ukrywają mniej dokładne wyniki. Mozilla pozostaje jednak przekonana, że wypracowana metodologia stanowi przełom w wykorzystaniu AI do bezpieczeństwa oprogramowania.