Naukowcy opracowali RankQ — metodę uczenia ze wzmocnieniem, która poprawia skuteczność robotów o 42,7% dzięki inteligentnemu rankowaniu działań.

Źródło zdjęcia: arXiv.org
Naukowcy z University of California opracowali RankQ — nową metodę uczenia ze wzmocnieniem, która znacząco poprawia efektywność treningu systemów AI poprzez inteligentne rankingowanie działań. Badanie opublikowane w serwisie arXiv przedstawia przełomowe podejście do problemu offline-to-online reinforcement learning, które może zrewolucjonizować sposób trenowania robotów i innych systemów autonomicznych.
RankQ wprowadza fundamentalną zmianę w sposobie, w jaki systemy AI uczą się z wcześniej zebranych danych przed przejściem do interakcji online. Tradycyjne metody offline-to-online reinforcement learning borykają się z problemem uczenia dokładnego krytyka w dużych przestrzeniach stan-akcja, gdzie dostępne dane nie pokrywają wszystkich możliwych scenariuszy.
Kluczowa innowacja RankQ polega na zastąpieniu pesymistycznego podejścia — które obniża wagę działań spoza dystrybucji względem działań z datasetu — strukturalnym rankowaniem preferencji działań. Autorzy badania, Andrew Choi i Wei Xu, argumentują, że tradycyjne metody działają jak „kotwica behavior cloning” i mogą hamować poprawę polityki online, gdy działania z datasetu są suboptymalne.
W testach na standardowych benchmarkach D4RL (Datasets for Deep Data-Driven Reinforcement Learning) RankQ wykazał konkurencyjną lub lepszą wydajność w porównaniu z siedmioma wcześniejszymi metodami. Szczególnie imponujące rezultaty osiągnięto w zadaniach z rzadkimi nagrodami, gdzie tradycyjne metody często zawodzą.
W praktycznych zastosowaniach robotycznych RankQ umożliwił skuteczne fine-tunowanie wstępnie wytrenowanych modeli vision-language-action (VLA) w reżimie małej ilości danych. W scenariuszu z ograniczonymi danymi metoda osiągnęła średnio o 42,7% wyższą skuteczność w symulacji niż najlepsza alternatywa. W środowisku z dużą ilością danych poprawa wyniosła 13,7%.
Jednym z najbardziej obiecujących aspektów RankQ jest jego zdolność do skutecznego transferu z symulacji do rzeczywistego świata. W eksperymentach z układaniem kostek rzeczywisty wskaźnik sukcesu wzrósł dramatycznie z 43,1% do 84,7% względem początkowej wydajności modelu VLA.
Ten rezultat jest szczególnie znaczący w kontekście robotyki, gdzie przepaść między symulacją a rzeczywistością stanowi jeden z największych wyzwań. RankQ poprzez uczenie względnych preferencji działań, a nie uniform penalizowanie nieznanych akcji, kształtuje funkcję Q w sposób, który lepiej generalizuje na nowe scenariusze.
Metoda RankQ reprezentuje istotny krok naprzód w dziedzinie uczenia ze wzmocnieniem, oferując praktyczne rozwiązanie dla jednego z kluczowych problemów współczesnej robotyki i systemów autonomicznych.

Scena z filmu z Robinem Williamsem pokazuje, dlaczego w erze AI nasze osobiste doświadczenia stają się jeszcze bardziej wartościowe niż teoretyczna wiedza.

Infrastruktura AI zużywa tyle wody co małe państwo. Nvidia przedstawiła system chłodzenia, który może drastycznie ograniczyć to zapotrzebowanie.

Platforma streamingowa TIDAL uniemożliwi zarabianie na w pełni wygenerowanej przez AI muzyce i wprowadzi specjalne oznaczenia takich utworów.