Nowe badanie pokazuje, że mapy uwagi nie przewidują poprawności odpowiedzi VLM. Niezawodność tkwi w ukrytych stanach późnych warstw.

Źródło zdjęcia: arXiv.org
Szczery wpis o tym, jak AI pomaga przełamać blokady w realizacji projektów, ale tworzy ryzyko uzależnienia od szybkich rezultatów i dopaminowych pętli.

Badanie Gallup pokazuje rosnący sceptycyzm Gen Z wobec AI: 48% uważa ryzyko większe od korzyści, a 80% obawia się wpływu na zdolność uczenia się.
Nowe badanie ujawnia, gdzie w modelach wizyjno-językowych rzeczywiście „mieszka” niezawodność. Zespół naukowców przetestował trzy rodziny modeli VLM i odkrył, że powszechna intuicja o ostrych mapach uwagi jako wskaźniku pewności jest błędna. Pełne wyniki badania opublikowane w arXiv pokazują, że niezawodność należy szukać gdzie indziej.
Zespół pod kierownictwem Logana Manna opracował zunifikowany pipeline mechanistyczny o nazwie VLM Reliability Probe (VRP). Narzędzie to porównuje strukturę uwagi, dynamikę generacji i geometrię ukrytych stanów względem pojedynczej etykiety poprawności. Badacze przetestowali trzy rodziny otwartych modeli: LLaVA-1.5, PaliGemma i Qwen2-VL (3–7B parametrów) na poolowanej próbie n=3,090.
Eksperymenty objęły maskowanie 30% najważniejszych fragmentów obrazu, co spowodowało spadek dokładności o 8.2–11.3 punktów procentowych (p<0.001), potwierdzając konieczność mechanizmu uwagi do ekstrakcji cech.
Badanie ujawniło fundamentalną różnicę między architekturami. Modele o późnej fuzji jak LLaVA koncentrują mechanizmy niezawodności w fragile późnym wąskim gardle. Ablacja zaledwie 5 najważniejszych neuronów sondy powoduje spadek dokładności identyfikacji obiektów o 8.3 punktu procentowego.
W przeciwieństwie do tego, modele o wczesnej fuzji (PaliGemma i Qwen2-VL) rozpraszają niezawodność szeroko po całej architekturze. Są znacznie bardziej odporne na uszkodzenia — zniszczenie około 50% wymiarów ukrytych w warstwie o najwyższej aktywności powoduje degradację nieprzekraczającą 1 punktu procentowego.
Wyniki mają bezpośrednie konsekwencje dla projektowania systemów monitoringu VLM. Zamiast polegać na ostrości map uwagi, deweloperzy powinni skupić się na geometrii ukrytych stanów, formowaniu marginesów warstwowych i rzadkich obwodach w późnych warstwach.
Badacze zauważają, że w modelach 3–7B parametrów niezawodność odczytuje się bardziej wiarygodnie z wymienionych mechanizmów niż z tradycyjnie analizowanej ostrości map uwagi. To odkrycie podważa powszechną intuicję w społeczności AI i wskazuje nowe kierunki rozwoju narzędzi diagnostycznych.
Badanie zostało zaakceptowane na warsztat ICLR 2026 Workshop on Multimodal Reasoning, a kod oraz pipeline treningowe sond są dostępne publicznie.