Badanie pokazuje, że modele AI zdolne do rozumowania wykazują rosnące uprzedzenia pozycyjne proporcjonalnie do długości trajektorii myślenia.

Źródło zdjęcia: arXiv.org
Nowe badanie opublikowane na arXiv ujawnia niepokojącą zależność w modelach AI zdolnych do rozumowania: im dłużej „myślą” nad zadaniem, tym bardziej podatne stają się na błędy związane z pozycją odpowiedzi w pytaniach wielokrotnego wyboru. Odkrycie to podważa powszechne przekonanie, że techniki chain-of-thought (CoT) i modele dostrojone do rozumowania zawsze redukują powierzchowne błędy systematyczne.
Badanie przeprowadzone przez Xiao Wang z wykorzystaniem trzynastu konfiguracji modeli rozumujących — w tym DeepSeek-R1 o 671 miliardach parametrów — pokazuje, że pozycyjne uprzedzenie rośnie proporcjonalnie do długości trajektorii rozumowania.
Badacz przetestował modele na zestawach danych MMLU, ARC-Challenge i GPQA, analizując dwie grupy modeli: destylowane z R1 (7–8B parametrów), modele bazowe z promptami CoT oraz pełny DeepSeek-R1. Wszystkie konfiguracje z otwartymi wagami wykazały monotoniczny wzrost PBS w kolejnych kwartylach długości trajektorii.
Kluczowym elementem badania był eksperyment z obcinaniem, gdzie trajektorie rozumowania były przerywane w różnych punktach, a następnie kontynuowane. Wyniki pokazały, że im później w trajektorii następowało wznowienie, tym większa była skłonność modelu do zmiany odpowiedzi na preferowaną pozycyjnie.
Odkrycia sugerują, że modele zdolne do rozumowania nie powinny być domyślnie traktowane jako odporne na kolejność opcji w pytaniach wielokrotnego wyboru. Badanie wykazuje fundamentalną różnicę między uprzedzeniem pozycyjnym w odpowiedziach bezpośrednich a tym występującym w rozumowaniu CoT.
W modelach Llama-Instruct bezpośrednie uprzedzenie pozycyjne było silne, podczas gdy w Qwen-Instruct-direct pozostawało słabe i nie korelowało z długością trajektorii. To wskazuje, że rozumowanie CoT wprowadza nowy typ systematycznego błędu, który zastępuje pierwotne uprzedzenia.
Badanie dostarcza zestawu narzędzi diagnostycznych, w tym Position Bias Score, punkty zmiany zaangażowania, efektywne przełączanie i sondy obcinania, które mogą być wykorzystane do audytu uprzedzeń pozycyjnych w przyszłych modelach rozumujących.

Ekspert pokazuje na przykładzie 150 okładek książek z Amazon, jak modele AI wytwarzają charakterystyczne wzorce, które można rozpoznać bez zaawansowanych narzędzi.

Meta reaktywuje Creator Studio z wbudowanym AI, który ma pokazywać twórcom „dokładnie, co robić, aby odnieść sukces na Facebooku”.

NVIDIA i AWS wprowadzają nowe instancje EC2 G7 z GPU Blackwell oraz przyspieszenie wektorowe w OpenSearch dla łatwiejszego wdrażania AI.