Partial Evidence Bench mierzy krytyczną słabość agentów AI — generowanie pozornie kompletnych odpowiedzi mimo braku dostępu do wszystkich danych.

Źródło zdjęcia: arXiv.org

Nowe badanie pokazuje, że mapy uwagi nie przewidują poprawności odpowiedzi VLM. Niezawodność tkwi w ukrytych stanach późnych warstw.

Firmy coraz częściej używają AI do monitorowania emocji pracowników, choć systemy wykazują bias rasowy i opierają się na kwestionowanej nauce.
Nowy benchmark Partial Evidence Bench umożliwia pomiar krytycznej słabości systemów agentowych działających w środowiskach korporacyjnych — gdy agent generuje odpowiedzi pozornie kompletne, mimo że nie ma dostępu do wszystkich niezbędnych danych. Badanie opublikowane na arXiv wprowadza pierwszy deterministyczny test dla tego typu problemów w systemach AI.
W środowiskach przedsiębiorstw agenty AI coraz częściej operują w ograniczonych systemach, gdzie kontrola dostępu może blokować części informacji, ale system nadal produkuje odpowiedzi wyglądające na kompletne. To stwarza poważne ryzyko w kontekście zarządzania i bezpieczeństwa korporacyjnego.
Partial Evidence Bench składa się z deterministycznych korpusów syntetycznych podzielonych według list kontroli dostępu (ACL). Każdy scenariusz zawiera kompletne odpowiedzi oracle, odpowiedzi z perspektywy autoryzowanej, oceny kompletności oracle oraz strukturalne raporty o lukach oracle.
Trzy główne rodziny scenariuszy odzwierciedlają typowe przypadki użycia w przedsiębiorstwach. Due diligence testuje sytuacje, gdy agent musi ocenić potencjalne inwestycje lub partnerstwa biznesowe na podstawie częściowo dostępnych dokumentów. Audyt zgodności sprawdza zdolność do identyfikowania naruszeń regulacyjnych, gdy dostęp do części danych może być ograniczony. Reagowanie na incydenty bezpieczeństwa wymaga od systemu analizy zagrożeń w warunkach niepełnej informacji.
Badanie wykazało fundamentalne różnice między podejściami do obsługi niepełnych dowodów. Systemy stosujące ciche filtrowanie — które po prostu pomijają niedostępne informacje bez informowania o tym — okazały się niebezpieczne we wszystkich testowanych scenariuszach.
Z kolei systemy implementujące jawne zgłaszanie niepowodzeń i raportowanie braków eliminowały niebezpieczne zachowania związane z kompletności, jednocześnie zachowując użyteczność w kontekście korporacyjnym. Wstępne testy z rzeczywistymi modelami AI pokazały znaczące różnice między modelami w sposobie radzenia sobie z niepełnymi informacjami — niektóre nadmiernie twierdziły kompletność, inne były nadmiernie konserwatywne.
Benchmark wprowadza mierzalny sposób oceny krytycznej słabości systemów agentowych bez potrzeby angażowania ludzkich sędziów czy używania korpusów podatnych na kontaminację. To ważny krok w kierunku bezpieczniejszego wdrażania AI w środowiskach korporacyjnych, gdzie niepełna informacja może prowadzić do kosztownych błędów w podejmowaniu decyzji.