Badanie pokazuje, że modele AI zdolne do rozumowania wykazują rosnące uprzedzenia pozycyjne proporcjonalnie do długości trajektorii myślenia.

Źródło zdjęcia: arXiv.org
Nowe badanie opublikowane na arXiv ujawnia niepokojącą zależność w modelach AI zdolnych do rozumowania: im dłużej „myślą” nad zadaniem, tym bardziej podatne stają się na błędy związane z pozycją odpowiedzi w pytaniach wielokrotnego wyboru. Odkrycie to podważa powszechne przekonanie, że techniki chain-of-thought (CoT) i modele dostrojone do rozumowania zawsze redukują powierzchowne błędy systematyczne.
Badacze opublikowali OncoAgent — system wspomagania decyzji w onkologii z dwupoziomową architekturą AI i pełną ochroną danych pacjentów.

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.
Badanie przeprowadzone przez Xiao Wang z wykorzystaniem trzynastu konfiguracji modeli rozumujących — w tym DeepSeek-R1 o 671 miliardach parametrów — pokazuje, że pozycyjne uprzedzenie rośnie proporcjonalnie do długości trajektorii rozumowania.
Badacz przetestował modele na zestawach danych MMLU, ARC-Challenge i GPQA, analizując dwie grupy modeli: destylowane z R1 (7–8B parametrów), modele bazowe z promptami CoT oraz pełny DeepSeek-R1. Wszystkie konfiguracje z otwartymi wagami wykazały monotoniczny wzrost PBS w kolejnych kwartylach długości trajektorii.
Kluczowym elementem badania był eksperyment z obcinaniem, gdzie trajektorie rozumowania były przerywane w różnych punktach, a następnie kontynuowane. Wyniki pokazały, że im później w trajektorii następowało wznowienie, tym większa była skłonność modelu do zmiany odpowiedzi na preferowaną pozycyjnie.
Odkrycia sugerują, że modele zdolne do rozumowania nie powinny być domyślnie traktowane jako odporne na kolejność opcji w pytaniach wielokrotnego wyboru. Badanie wykazuje fundamentalną różnicę między uprzedzeniem pozycyjnym w odpowiedziach bezpośrednich a tym występującym w rozumowaniu CoT.
W modelach Llama-Instruct bezpośrednie uprzedzenie pozycyjne było silne, podczas gdy w Qwen-Instruct-direct pozostawało słabe i nie korelowało z długością trajektorii. To wskazuje, że rozumowanie CoT wprowadza nowy typ systematycznego błędu, który zastępuje pierwotne uprzedzenia.
Badanie dostarcza zestawu narzędzi diagnostycznych, w tym Position Bias Score, punkty zmiany zaangażowania, efektywne przełączanie i sondy obcinania, które mogą być wykorzystane do audytu uprzedzeń pozycyjnych w przyszłych modelach rozumujących.