12 maja 20264 min czytania

Gdzie w modelach wizyjno-językowych ukrywa się niezawodność — przełomowe badanie mechanizmów VLM

Nowe badanie pokazuje, że mapy uwagi nie przewidują poprawności odpowiedzi VLM. Niezawodność tkwi w ukrytych stanach późnych warstw.

Źródło zdjęcia: arXiv.org

Poprzedni

Nowy algorytm AI rewolucjonizuje wyznaczanie granic okręgów wyborczych

Następny

Siatka współrzędnych przewyższa semantyczne wskazówki w ekstrakcji danych z wykresów przez AI

Podobne Publikacje

Poradniki

Paraliż zadaniowy i sztuczna inteligencja — osobiste doświadczenia z Claude

Szczery wpis o tym, jak AI pomaga przełamać blokady w realizacji projektów, ale tworzy ryzyko uzależnienia od szybkich rezultatów i dopaminowych pętli.

4 min10 maja

Badania i Nauka

Gen Z coraz bardziej krytyczne wobec AI — gniew wzrósł do 31% w ciągu roku

Badanie Gallup pokazuje rosnący sceptycyzm Gen Z wobec AI: 48% uważa ryzyko większe od korzyści, a 80% obawia się wpływu na zdolność uczenia się.

Kluczowe wnioski

Struktura uwagi jest niemal bezwartościowym predyktorem poprawności odpowiedzi (R_pb(C_k,y)=0.001) mimo że pozostaje konieczna do ekstrakcji cech.

Niezawodność staje się czytelna dopiero w późniejszych warstwach obliczeń — pojedyncza sonda liniowa na ukrytych stanach osiąga AUROC>0.95.

Modele o późnej fuzji (LLaVA) koncentrują niezawodność w kruchym wąskim gardle, podczas gdy modele o wczesnej fuzji (PaliGemma, Qwen2-VL) rozprowadzają ją szeroko.

Usunięcie 50% wymiarów ukrytych w warstwie szczytowej powoduje degradację ≤1 punktu procentowego w modelach o wczesnej fuzji.

Samokonsjstencja przy K=10 okazała się najsilniejszym behawioralnym predyktorem (R_pb=0.43) przy 10-krotnie wyższym koszcie inferencji.

Metodologia badania

Zespół pod kierownictwem Logana Manna opracował zunifikowany pipeline mechanistyczny o nazwie VLM Reliability Probe (VRP). Narzędzie to porównuje strukturę uwagi, dynamikę generacji i geometrię ukrytych stanów względem pojedynczej etykiety poprawności. Badacze przetestowali trzy rodziny otwartych modeli: LLaVA-1.5, PaliGemma i Qwen2-VL (3–7B parametrów) na poolowanej próbie n=3,090.

Eksperymenty objęły maskowanie 30% najważniejszych fragmentów obrazu, co spowodowało spadek dokładności o 8.2–11.3 punktów procentowych (p<0.001), potwierdzając konieczność mechanizmu uwagi do ekstrakcji cech.

Architektoniczne różnice w niezawodności

Badanie ujawniło fundamentalną różnicę między architekturami. Modele o późnej fuzji jak LLaVA koncentrują mechanizmy niezawodności w fragile późnym wąskim gardle. Ablacja zaledwie 5 najważniejszych neuronów sondy powoduje spadek dokładności identyfikacji obiektów o 8.3 punktu procentowego.

W przeciwieństwie do tego, modele o wczesnej fuzji (PaliGemma i Qwen2-VL) rozpraszają niezawodność szeroko po całej architekturze. Są znacznie bardziej odporne na uszkodzenia — zniszczenie około 50% wymiarów ukrytych w warstwie o najwyższej aktywności powoduje degradację nieprzekraczającą 1 punktu procentowego.

Implikacje dla monitoringu modeli

Wyniki mają bezpośrednie konsekwencje dla projektowania systemów monitoringu VLM. Zamiast polegać na ostrości map uwagi, deweloperzy powinni skupić się na geometrii ukrytych stanów, formowaniu marginesów warstwowych i rzadkich obwodach w późnych warstwach.

Badacze zauważają, że w modelach 3–7B parametrów niezawodność odczytuje się bardziej wiarygodnie z wymienionych mechanizmów niż z tradycyjnie analizowanej ostrości map uwagi. To odkrycie podważa powszechną intuicję w społeczności AI i wskazuje nowe kierunki rozwoju narzędzi diagnostycznych.

Badanie zostało zaakceptowane na warsztat ICLR 2026 Workshop on Multimodal Reasoning, a kod oraz pipeline treningowe sond są dostępne publicznie.