Nowy framework weryfikacji oparty na ontologii osiągnął 48,3% pokrycia regulacyjnego w testach na 1800 scenariuszach w czterech branżach regulowanych.

Źródło zdjęcia: arXiv.org
Naukowcy z Uniwersytetu opracowali nowe podejście do certyfikacji agentów AI dla przedsiębiorstw przed ich wdrożeniem w środowisku produkcyjnym. Badanie, opublikowane na arXiv, przedstawia framework weryfikacji oparty na ontologii, który ma wypełnić lukę między testowaniem możliwości wielkich modeli językowych a rzeczywistym wdrożeniem w firmach.
Proponowany system składa się z trzech głównych elementów. Agent Operational Envelope formalizuje przestrzeń certyfikacji obejmującą uprawnienia, ograniczenia domenowe, właściwości bezpieczeństwa, zasady zarządzania oraz poziomy autonomii. Pipeline generowania scenariuszy automatycznie wyprowadza scenariusze testowe: regulacyjne, operacyjne i adversarialne na podstawie ontologii. Trust Certificate zawiera atestem weryfikowalny maszynowo z gradowanymi werdyktami wdrożenia: zatwierdzony, warunkowy lub odrzucony.
Autorzy badania, Thanh Luong Tuan i Abhijit Sanyal, podkreślają, że obecne metody monitorowania po wdrożeniu, kontroli human-in-the-loop i zabezpieczeń na poziomie promptów oferują ograniczone gwarancje po uruchomieniu agenta w produkcji.
Kontrolowany pilot obejmował pięć komórek branża-reżim regulacyjny w Stanach Zjednoczonych i Wietnamie. System wygenerował 1800 scenariuszy, które zostały ocenione względem 125 wymogów regulacyjnych pochodzących z pierwotnych źródeł oraz 25 sztucznie wprowadzonych błędów.
Metoda ontologiczna (G4) nie tylko osiągnęła wyższe pokrycie regulacyjne, ale także najwyższą specyficzność domenową na poziomie 4,77 na 5,0 punktów (p = 2e-6). Przewaga nad metodami bazowymi i promptowaniem wspomaganym wyszukiwaniem nie utrzymała się jednak po korekcie Bonferroniego, co wskazuje na potrzebę dalszych badań.
Walidacja krzyżowa przeprowadzona na trzech rodzinach modeli językowych potwierdziła wzorzec przewagi ontologii nad personami. Łącznie przeanalizowano 5400 scenariuszy, co pozwoliło na statystyczne potwierdzenie robustności podejścia.
Wyniki badania ustanawiają generowanie scenariuszy oparte na ontologii jako wiarygodne uzupełnienie zestawów testowych opartych na personach, szczególnie w domenach intensywnie regulowanych. Framework może przyczynić się do zwiększenia zaufania do systemów AI w przedsiębiorstwach przed ich wdrożeniem produkcyjnym.

NSA wykorzystuje model AI Mythos do ofensywnych operacji cybernetycznych. Anthropic umieściło swoich inżynierów w agencji mimo sporu z Pentagonem.

Amazon dodaje funkcję generowania obrazów produktów przez AI w wyszukiwarce mobilnej. Użytkownicy mogą opisać odzież słowami i znaleźć podobne dostępne przedmioty.

NVIDIA i wiodące firmy przedstawiły autonomicznych inżynierów AI opartych na NemoClaw, skracających procesy inżynieryjne z tygodni do godzin.