12 maja 20264 min czytania

Auto-Rubric as Reward: przełomowa metoda trenowania modeli AI z jasnymi kryteriami oceny

ARR zastępuje nieprzeźroczyste sygnały nagrody strukturalnymi kryteriami, przewyższając tradycyjne metody w testach generowania obrazów.

Źródło zdjęcia: arXiv.org

Poprzedni

Siatka współrzędnych przewyższa semantyczne wskazówki w ekstrakcji danych z wykresów przez AI

Następny

AlphaFold 3 osiąga 99% dokładność w przewidywaniu struktury białek

Podobne Publikacje

Badania i Nauka

Laureat Medalu Fieldsa: ChatGPT 5.5 Pro wykonał badania na poziomie doktorskim w matematyce w niecałe dwie godziny

Timothy Gowers użył ChatGPT 5.5 Pro do rozwiązania otwartych problemów matematycznych. AI samodzielnie wygenerował prace naukowe na poziomie doktorskim bez pomocy człowieka.

4 min9 maja

Badania i Nauka

GraphDC: Nowa architektura AI znacząco poprawia rozumowanie nad algorytmami grafowymi

Naukowcy opracowali GraphDC — wieloagentowy system wykorzystujący strategię 'dziel i zwyciężaj' do skuteczniejszego rozwiązywania problemów grafowych.

Kluczowe wnioski

ARR przekształca ukryte preferencje modeli wizyjno-językowych w eksplicytne, weryfikowalne kryteria oceny przed jakimkolwiek porównywaniem par danych.

Metoda znacząco redukuje błędy ewaluacyjne, w tym pozycyjne uprzedzenia, umożliwiając wdrażanie zero-shot i trenowanie z minimalnym nadzorem.

Rubric Policy Optimization (RPO) destyluje wielowymiarową ocenę ARR w stabilny binarny sygnał nagrody, zastępując nieprzeźroczyste regresje skalarne.

W benchmarkach generowania obrazów z tekstu i edycji obrazów ARR-RPO przewyższa tradycyjne modele nagrody parowej oraz sędziów VLM.

Badanie ujawnia, że głównym wąskim gardłem w dostrajaniu AI nie jest brak wiedzy, lecz nieobecność sfaktoryzowanego interfejsu.

Rewolucja w modelowaniu nagród

Tradycyjne podejścia do uczenia ze wzmocnieniem z ludzką informacją zwrotną (RLHF) redukują złożone ludzkie preferencje do skalarnych lub parowych etykiet. Jak wyjaśniają autorzy pracy — Juanxi Tian i zespół ośmiu badaczy — takie uproszczenie przekształca niuansowane osądy w nieprzeźroczyste parametryczne przybliżenia, narażając modele na hakowanie nagród.

ARR rozwiązuje ten problem poprzez eksternalizację zinternalizowanej wiedzy o preferencjach modelu VLM jako rubryki specyficzne dla danego promptu. Proces ten tłumaczy holistyczne intencje na niezależnie weryfikowalne wymiary jakości, jeszcze przed przeprowadzeniem jakichkolwiek porównań parowych.

Rubric Policy Optimization w praktyce

Kluczowym wkładem badaczy jest Rubric Policy Optimization (RPO), które destyluje strukturalną, wielowymiarową ocenę ARR w solidny binarny sygnał nagrody. RPO zastępuje nieprzeźroczyste regresje skalarne decyzjami preferencyjnymi uwarunkowanymi rubrykami, stabilizując gradienty polityki.

Metoda przynosi szczególnie obiecujące rezultaty w zastosowaniach multimodalnych, gdzie kompozycyjna natura ludzkiego osądu wymaga bardziej wyrafinowanych sygnałów nagrody niż proste porównania parowe.

Wyniki i implikacje

Eksperymenty przeprowadzone na benchmarkach generowania obrazów z tekstu oraz edycji obrazów potwierdzają przewagę ARR-RPO nad istniejącymi rozwiązaniami. Metoda osiąga lepsze wyniki niż tradycyjne modele nagrody parowej i sędziowie VLM, jednocześnie wymagając znacznie mniej danych treningowych.

Badanie składa się z 28 stron, 10 ilustracji i 11 tabel, przedstawiając kompleksową analizę nowego podejścia. Autorzy udowadniają, że eksplicytne eksternalizowanie ukrytej wiedzy o preferencjach w strukturalne rubryki prowadzi do bardziej niezawodnego i efektywnego dostrajania modeli multimodalnych.

ARR-RPO otwiera nową ścieżkę rozwoju dla bardziej interpretowalnych i stabilnych systemów AI, gdzie kryteria oceny są jasne i weryfikowalne, a nie ukryte w parametrach modelu.