ARR zastępuje nieprzeźroczyste sygnały nagrody strukturalnymi kryteriami, przewyższając tradycyjne metody w testach generowania obrazów.

Źródło zdjęcia: arXiv.org

Timothy Gowers użył ChatGPT 5.5 Pro do rozwiązania otwartych problemów matematycznych. AI samodzielnie wygenerował prace naukowe na poziomie doktorskim bez pomocy człowieka.

Naukowcy opracowali GraphDC — wieloagentowy system wykorzystujący strategię 'dziel i zwyciężaj' do skuteczniejszego rozwiązywania problemów grafowych.
Zespół badaczy opublikował przełomową pracę naukową przedstawiającą Auto-Rubric as Reward (ARR) — nową metodę trenowania modeli multimodalnych, która zastępuje nieprzeźroczyste sygnały nagrody jasnymi, strukturalnymi kryteriami oceny. Badanie dostępne na arXiv wprowadza fundamentalną zmianę w podejściu do dostrajania modeli AI zgodnie z ludzkimi preferencjami.
Tradycyjne podejścia do uczenia ze wzmocnieniem z ludzką informacją zwrotną (RLHF) redukują złożone ludzkie preferencje do skalarnych lub parowych etykiet. Jak wyjaśniają autorzy pracy — Juanxi Tian i zespół ośmiu badaczy — takie uproszczenie przekształca niuansowane osądy w nieprzeźroczyste parametryczne przybliżenia, narażając modele na hakowanie nagród.
ARR rozwiązuje ten problem poprzez eksternalizację zinternalizowanej wiedzy o preferencjach modelu VLM jako rubryki specyficzne dla danego promptu. Proces ten tłumaczy holistyczne intencje na niezależnie weryfikowalne wymiary jakości, jeszcze przed przeprowadzeniem jakichkolwiek porównań parowych.
Kluczowym wkładem badaczy jest Rubric Policy Optimization (RPO), które destyluje strukturalną, wielowymiarową ocenę ARR w solidny binarny sygnał nagrody. RPO zastępuje nieprzeźroczyste regresje skalarne decyzjami preferencyjnymi uwarunkowanymi rubrykami, stabilizując gradienty polityki.
Metoda przynosi szczególnie obiecujące rezultaty w zastosowaniach multimodalnych, gdzie kompozycyjna natura ludzkiego osądu wymaga bardziej wyrafinowanych sygnałów nagrody niż proste porównania parowe.
Eksperymenty przeprowadzone na benchmarkach generowania obrazów z tekstu oraz edycji obrazów potwierdzają przewagę ARR-RPO nad istniejącymi rozwiązaniami. Metoda osiąga lepsze wyniki niż tradycyjne modele nagrody parowej i sędziowie VLM, jednocześnie wymagając znacznie mniej danych treningowych.
Badanie składa się z 28 stron, 10 ilustracji i 11 tabel, przedstawiając kompleksową analizę nowego podejścia. Autorzy udowadniają, że eksplicytne eksternalizowanie ukrytej wiedzy o preferencjach w strukturalne rubryki prowadzi do bardziej niezawodnego i efektywnego dostrajania modeli multimodalnych.
ARR-RPO otwiera nową ścieżkę rozwoju dla bardziej interpretowalnych i stabilnych systemów AI, gdzie kryteria oceny są jasne i weryfikowalne, a nie ukryte w parametrach modelu.