Naukowcy opracowali RankQ — metodę uczenia ze wzmocnieniem, która poprawia skuteczność robotów o 42,7% dzięki inteligentnemu rankowaniu działań.

Źródło zdjęcia: arXiv.org
Doświadczony gracz CTF wyjaśnia, jak modele takie jak GPT-5.5 i Claude Opus przekształciły konkursy cyberbezpieczeństwa w zawody automatyzacji zamiast testów umiejętności.

WorldReasonBench testuje fizykę i logikę w wideo AI. Modele komercyjne jak Seedance 2.0 i Sora 2 wygrywają z open-source, ale wszystkie mają problem z logiką.
Naukowcy z University of California opracowali RankQ — nową metodę uczenia ze wzmocnieniem, która znacząco poprawia efektywność treningu systemów AI poprzez inteligentne rankingowanie działań. Badanie opublikowane w serwisie arXiv przedstawia przełomowe podejście do problemu offline-to-online reinforcement learning, które może zrewolucjonizować sposób trenowania robotów i innych systemów autonomicznych.
RankQ wprowadza fundamentalną zmianę w sposobie, w jaki systemy AI uczą się z wcześniej zebranych danych przed przejściem do interakcji online. Tradycyjne metody offline-to-online reinforcement learning borykają się z problemem uczenia dokładnego krytyka w dużych przestrzeniach stan-akcja, gdzie dostępne dane nie pokrywają wszystkich możliwych scenariuszy.
Kluczowa innowacja RankQ polega na zastąpieniu pesymistycznego podejścia — które obniża wagę działań spoza dystrybucji względem działań z datasetu — strukturalnym rankowaniem preferencji działań. Autorzy badania, Andrew Choi i Wei Xu, argumentują, że tradycyjne metody działają jak „kotwica behavior cloning” i mogą hamować poprawę polityki online, gdy działania z datasetu są suboptymalne.
W testach na standardowych benchmarkach D4RL (Datasets for Deep Data-Driven Reinforcement Learning) RankQ wykazał konkurencyjną lub lepszą wydajność w porównaniu z siedmioma wcześniejszymi metodami. Szczególnie imponujące rezultaty osiągnięto w zadaniach z rzadkimi nagrodami, gdzie tradycyjne metody często zawodzą.
W praktycznych zastosowaniach robotycznych RankQ umożliwił skuteczne fine-tunowanie wstępnie wytrenowanych modeli vision-language-action (VLA) w reżimie małej ilości danych. W scenariuszu z ograniczonymi danymi metoda osiągnęła średnio o 42,7% wyższą skuteczność w symulacji niż najlepsza alternatywa. W środowisku z dużą ilością danych poprawa wyniosła 13,7%.
Jednym z najbardziej obiecujących aspektów RankQ jest jego zdolność do skutecznego transferu z symulacji do rzeczywistego świata. W eksperymentach z układaniem kostek rzeczywisty wskaźnik sukcesu wzrósł dramatycznie z 43,1% do 84,7% względem początkowej wydajności modelu VLA.
Ten rezultat jest szczególnie znaczący w kontekście robotyki, gdzie przepaść między symulacją a rzeczywistością stanowi jeden z największych wyzwań. RankQ poprzez uczenie względnych preferencji działań, a nie uniform penalizowanie nieznanych akcji, kształtuje funkcję Q w sposób, który lepiej generalizuje na nowe scenariusze.
Metoda RankQ reprezentuje istotny krok naprzód w dziedzinie uczenia ze wzmocnieniem, oferując praktyczne rozwiązanie dla jednego z kluczowych problemów współczesnej robotyki i systemów autonomicznych.