Mozilla za pomocą Anthropic Mythos wykryła 271 luk bezpieczeństwa w Firefox, praktycznie eliminując problem fałszywych alarmów dzięki innowacyjnemu harness.

Źródło zdjęcia: Ars Technica

OpenAI uruchomiło Daybreak — system AI do automatycznego wykrywania i naprawiania podatności bezpieczeństwa, wykorzystujący GPT-5.5-Cyber i Codex Security.

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.
Mozilla za pomocą sztucznej inteligencji wykryła 271 luk bezpieczeństwa w przeglądarce Firefox, używając modelu Anthropic Mythos. Jak wynika z raportu opublikowanego przez firmę, przełomem było stworzenie specjalnego „harnessa” — oprogramowania opakowującego model AI, które eliminuje problem fałszywych alarmów charakterystyczny dla wcześniejszych prób wykorzystania AI w bezpieczeństwie.
Sceptycyzm wobec wcześniejszych deklaracji CTO Mozilli o tym, że „dni zero-day są policzone”, był uzasadniony. Dotychczasowe próby wykorzystania AI do wykrywania luk skutkowały głównie „niechcianymi śmieciami” — pozornie wiarygodnymi raportami o błędach, które okazywały się w dużej mierze halucynacjami.
Brian Grinstead, Distinguished Engineer w Mozilli, opisuje harness jako „kod, który kieruje LLM w celu osiągnięcia określonego celu”. System działa w pętli, dając modelowi instrukcje (np. „znajdź błąd w tym pliku”), zapewniając narzędzia (możliwość czytania/pisania plików i ewaluacji przypadków testowych), a następnie uruchamiając go do momentu zakończenia zadania.
Kluczowe jest to, że harness daje Mythosowi dostęp do tej samej infrastruktury, którą używają deweloperzy Mozilli, włącznie ze specjalną wersją Firefox do testowania. Jak wyjaśnia Grinstead:
„Gdy szukamy problemów z bezpieczeństwem pamięci, mamy naszą wersję Firefox z sanitizerem i jeśli ją rozbijesz, wygrywasz. Wskazujemy agentowi plik źródłowy i mówimy: 'wiemy, że w tym pliku jest problem, proszę go znaleźć'. AI tworzy przypadki testowe. Mamy nasze istniejące systemy fuzzingu i narzędzia do uruchamiania tych testów.”
System wykorzystuje drugi model AI do oceny wyników pierwszego. Wysokie oceny dają deweloperom taki sam poziom pewności jak raporty wygenerowane tradycyjnymi metodami. „Jeśli chodzi o błędy wychodzące na drugiej stronie, prawie nie ma fałszywych alarmów”, podkreśla Grinstead.
Dodatkowa weryfikacja oznacza deterministyczny sygnał sukcesu. W przypadku problemów z bezpieczeństwem pamięci, jeśli AI sprawi, że Firefox się zawiesza, to znak że znalazło prawdziwy błąd. Ten mechanizm pozwala na działanie na dużą skalę, którą Mozilla obecnie osiąga.
Z 271 wykrytych luk, 180 otrzymało klasyfikację sec-high (najwyższą dla wewnętrznie zgłaszanych vulnerabilities), 80 to sec-moderate, a 11 sec-low. Mozilla nie ubiega się o oznaczenia CVE dla wewnętrznie odkrytych błędów bezpieczeństwa — są one grupowane w pojedyncze łatki, a raporty Bugzilla pozostają ukryte przez kilka miesięcy po naprawie.
Mimo ujawnienia 12 pełnych raportów, które według badaczy wyglądają „całkiem imponująco”, krytycy prawdopodobnie będą twierdzić, że zostały one wyselekcjonowane i ukrywają mniej dokładne wyniki. Mozilla pozostaje jednak przekonana, że wypracowana metodologia stanowi przełom w wykorzystaniu AI do bezpieczeństwa oprogramowania.