Nowa klasa modeli AI dla robotyki umożliwia uczenie się z nieoznaczonych filmów codziennych i przewidywanie zmian w środowisku przed działaniem.

Źródło zdjęcia: The Decoder
Badacze z Uniwersytetu Fudan, Shanghai Innovation Institute i National University of Singapore opublikowali pierwszy systematyczny przegląd modeli zwanych World Action Models (WAMs) — nowej klasy systemów AI dla robotyki, które umożliwiają maszynom symulowanie konsekwencji swoich działań przed ich wykonaniem. Przełomowe podejście opisane w artykule opublikowanym na The Decoder może zrewolucjonizować sposób, w jaki roboty uczą się i podejmują decyzje.
Tradycyjne modele AI w robotyce działają według prostego schematu: mapują obraz z kamery bezpośrednio na ruchy. World Action Models idą znacznie dalej — budują wewnętrzny model fizycznego świata, przewidując jak zmieni się środowisko w wyniku wykonanego działania.
Ta zdolność do symulowania przyszłości przed podjęciem akcji przynosi praktyczne korzyści. Modele lepiej generalizują do nieznanych obiektów i środowisk, a co najważniejsze — mogą uczyć się z materiałów wideo, w których ruchy robota nie są w ogóle oznaczone. Filmy z pierwszej osoby, które dotychczas były prawie bezużyteczne dla robotyki, stają się cennym źródłem wiedzy.
Autorzy przeglądu podzielili około 100 analizowanych prac na dwie główne linie architektoniczne. Pierwsze podejście, zwane kaskadowymi WAM, działa dwuetapowo. Model świata generuje najpierw obraz lub film pokazujący, jak powinna wyglądać scena w następnej chwili. Następnie drugi moduł wyprowadza z tego wyjścia odpowiednie polecenia sterowania.
Wczesne prace jak UniPi generowały kompletne filmy i wywodziły ruch przez nauczony model odwrotny. Inne podejścia jak AVDC czy 3DFlowAction używają pól ruchu, z których trajektoria robota może być obliczona geometrycznie. Jeszcze inne — VPP czy LAPA — omijają widoczne obrazy całkowicie i przewidują przyszłość w skompresowanych, abstrakcyjnych reprezentacjach.
Druga linia, wspólne WAM, łączy oba zadania w jednym modelu. Prace jak GR-1, GR-2 czy WorldVLA traktują obrazy i działania jako zunifikowaną sekwencję tokenów. Warianty oparte na dyfuzji, takie jak PAD, UWM czy DreamZero, generują przyszłą klatkę i ruch równolegle. Cosmos Policy od Nvidii może używać tej samej architektury jako kontroler, symulator lub model ewaluacyjny.
Autorzy szczególnie krytycznie oceniają sposób testowania tych modeli. Jakość wizualna jest mierzona standardowymi metrykami jak PSNR czy FVD, ale te mało mówią o tym, czy film jest fizycznie wiarygodny. Źródła danych treningowych również stanowią wyzwanie — od precyzyjnych ale kosztownych danych z teleoperacji, przez próby łączenia materiałów z wielu laboratoriów w zbiorach jak Open X-Embodiment, po nieograniczone ale problematyczne w transferze filmy z codziennego życia.
Badacze podkreślają, że im łatwiej skalować źródło danych, tym trudniej jest przenieść wiedzę na rzeczywistego robota. World Action Models pokazują jednak swoją przewagę właśnie w wykorzystaniu filmów egocentrycznych, które oferują nieograniczoną różnorodność, nawet jeśli nie zawierają etykiet działań.

Papież Leon XIV ostrzega przed wykorzystaniem sztucznej inteligencji w konfliktach zbrojnych, nazywając to „spiralą zagłady”. Przygotowuje encyklikę o AI.

Chiński startup szykuje rundę 70 mld juanów przy wycenie 45 mld dolarów. Założyciel stawia na badania nad AGI i open-source zamiast szybkich zysków.

xAI zbiera dane podatkowe pracowników, by poprawić możliwości chatbota Grok. Część osób nadal nie otrzymała obiecanych pieniędzy za przekazanie dokumentów.