9 maja 20264 min czytania

Nowy benchmark testuje jak systemy AI radzą sobie z niepełnymi danymi w firmach

Partial Evidence Bench mierzy krytyczną słabość agentów AI — generowanie pozornie kompletnych odpowiedzi mimo braku dostępu do wszystkich danych.

Źródło zdjęcia: arXiv.org

Poprzedni

Nowa metoda interpretacji polityk bezpieczeństwa AI przez analizę zachowań annotatorów

Następny

Laureat Medalu Fieldsa: ChatGPT 5.5 Pro wykonał badania na poziomie doktorskim w matematyce w niecałe dwie godziny

Podobne Publikacje

Badania i Nauka

Gdzie w modelach wizyjno-językowych ukrywa się niezawodność — przełomowe badanie mechanizmów VLM

Nowe badanie pokazuje, że mapy uwagi nie przewidują poprawności odpowiedzi VLM. Niezawodność tkwi w ukrytych stanach późnych warstw.

4 min12 maja

Etyka i Bezpieczeństwo

Sztuczna inteligencja do rozpoznawania emocji wkracza do firm mimo wątpliwych podstaw naukowych

Firmy coraz częściej używają AI do monitorowania emocji pracowników, choć systemy wykazują bias rasowy i opierają się na kwestionowanej nauce.

4 min

Kluczowe wnioski

Nowy benchmark testuje 72 zadania w trzech scenariuszach: due diligence, audyt zgodności i reagowanie na incydenty bezpieczeństwa.

Systemy oceniane są pod kątem czterech aspektów: poprawność odpowiedzi, świadomość kompletności, jakość raportów o lukach i niebezpieczne zachowania związane z kompletności.

Baseline'y wykazały, że ciche filtrowanie jest „katastrofalnie niebezpieczne” we wszystkich testowanych scenariuszach.

Zachowanie typu „fail-and-report” eliminuje niebezpieczną kompletność bez redukowania zadania do trywialnego powstrzymania się od odpowiedzi.

Wstępne testy z rzeczywistymi modelami pokazały różnice zależne od modelu w skłonności do nadmiernego twierdzenia kompletności.

Architektura benchmarku

Partial Evidence Bench składa się z deterministycznych korpusów syntetycznych podzielonych według list kontroli dostępu (ACL). Każdy scenariusz zawiera kompletne odpowiedzi oracle, odpowiedzi z perspektywy autoryzowanej, oceny kompletności oracle oraz strukturalne raporty o lukach oracle.

Trzy główne rodziny scenariuszy odzwierciedlają typowe przypadki użycia w przedsiębiorstwach. Due diligence testuje sytuacje, gdy agent musi ocenić potencjalne inwestycje lub partnerstwa biznesowe na podstawie częściowo dostępnych dokumentów. Audyt zgodności sprawdza zdolność do identyfikowania naruszeń regulacyjnych, gdy dostęp do części danych może być ograniczony. Reagowanie na incydenty bezpieczeństwa wymaga od systemu analizy zagrożeń w warunkach niepełnej informacji.

Wyniki i implikacje

Badanie wykazało fundamentalne różnice między podejściami do obsługi niepełnych dowodów. Systemy stosujące ciche filtrowanie — które po prostu pomijają niedostępne informacje bez informowania o tym — okazały się niebezpieczne we wszystkich testowanych scenariuszach.

Z kolei systemy implementujące jawne zgłaszanie niepowodzeń i raportowanie braków eliminowały niebezpieczne zachowania związane z kompletności, jednocześnie zachowując użyteczność w kontekście korporacyjnym. Wstępne testy z rzeczywistymi modelami AI pokazały znaczące różnice między modelami w sposobie radzenia sobie z niepełnymi informacjami — niektóre nadmiernie twierdziły kompletność, inne były nadmiernie konserwatywne.

Benchmark wprowadza mierzalny sposób oceny krytycznej słabości systemów agentowych bez potrzeby angażowania ludzkich sędziów czy używania korpusów podatnych na kontaminację. To ważny krok w kierunku bezpieczniejszego wdrażania AI w środowiskach korporacyjnych, gdzie niepełna informacja może prowadzić do kosztownych błędów w podejmowaniu decyzji.