WorldReasonBench testuje fizykę i logikę w wideo AI. Modele komercyjne jak Seedance 2.0 i Sora 2 wygrywają z open-source, ale wszystkie mają problem z logiką.

Źródło zdjęcia: The Decoder
Politycy z obu stron wykorzystują strach przed AI, a protesty przeciwko centrom danych przechodzą już w groźby i ataki fizyczne.

Badanie Gallup: 71% Amerykanów nie chce centrów danych AI w pobliżu. Główne obawy to zużycie wody i energii, rosnące rachunki za prąd.
Nowy benchmark WorldReasonBench od Uniwersytetu Tsinghua potwierdza, że współczesne generatory wideo jak Sora 2, Seedance 2.0 czy Veo 3.1 produkują wizualnie spektakularne klipy, ale wciąż mają fundamentalne problemy z rozumieniem świata. Badanie pokazuje wyraźną różnicę między jakością wizualną a rzeczywistym zrozumieniem fizyki i logiki.
Zamiast skupiać się na jakości obrazu, WorldReasonBench testuje, czy model potrafi wziąć początkową scenę i kontynuować ją w sposób sensowny pod względem fizycznym, społecznym, logicznym i informacyjnym. Przykład: generator otrzymuje obraz jabłka na gałęzi z poleceniem upuszczenia go. Rezultat może wyglądać świetnie — płynny ruch, realistyczne tekstury, piękne oświetlenie — ale wciąż błędnie oddawać fizykę, gdy jabłko leci w górę, pęka jak balon lub spada w linii prostej zamiast po łuku.
WorldReasonBench dzieli ocenę generatorów wideo na cztery wymiary rozumowania z 22 podkategoriami, od mechaniki fizycznej po logikę diagramów. Test obejmuje około 400 przypadków w czterech obszarach: wiedzę o świecie (fizyka, pogoda, normy kulturowe), sceny skoncentrowane na człowieku (obsługa obiektów, interakcje społeczne), rozumowanie logiczne (matematyka, geometria, eksperymenty naukowe) oraz rozumowanie informacyjne (odczytywanie danych i diagramów).
Ocenianie przebiega w dwóch etapach. Najpierw metoda uwzględniająca proces używa strukturalnych pytań do sprawdzenia, czy wideo osiąga właściwy stan końcowy w wiarygodny sposób. Następnie drugi przebieg ocenia jakość rozumowania, spójność czasową i estetykę wizualną. Wraz z benchmarkiem zespół wydał również WorldRewardBench — zbiór danych zawierający około 6000 porównań wideo ocenionych przez przeszkolonych adnotatorów.
Badacze przetestowali pięć systemów komercyjnych (Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast) i sześć modeli open-source (LTX 2.3, Wan 2.2–14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video). Generatory komercyjne osiągnęły wyniki około dwukrotnie lepsze niż modele open-source w podstawowej metryce rozumowania, bez statystycznego nakładania się między grupami.
Seedance 2.0 od ByteDance wyszedł na prowadzenie, zajmując pierwsze miejsce w prawie dziewięciu na dziesięć statystycznych powtórzeń. Veo 3.1-Fast najlepiej radził sobie z wiedzą o świecie, Sora 2 przewodziła w scenach skoncentrowanych na człowieku. Seedance 2.0 również pokonał Veo 3.1-Fast, Kling i Wan 2.6 w ocenach ludzkich.
Ważniejsze od rankingów jest wspólna słabość: rozumowanie logiczne stanowi najtrudniejszą kategorię dla każdego testowanego modelu. Nawet najlepsze systemy komercyjne znacznie spadają poniżej swoich ogólnych średnich w tym obszarze, a większość modeli open-source niemal całkowicie zawodzi. Rozumowanie informacyjne to druga najtrudniejsza dziedzina, szczególnie gdy zadania wymagają przejść opartych na fizyce lub dokładnego zachowania tekstu i liczb.
Badanie wprowadza również metrykę śledzącą, ile poprawnych odpowiedzi pochodzi z dynamicznych faz opartych na procesie, a nie ze statycznych migawek. Modele komercyjne osiągają tu znacznie wyższe wyniki, co wskazuje, gdzie modele open-source naprawdę zawodzą: nie w tym, jak rzeczy wyglądają, ale w rozumieniu przyczyny i skutku.
Wniosek wpisuje się w rosnący zbiór dowodów: pomimo rzeczywistego postępu w rozdzielczości, długości i kontrolowalności, skok od generatora pikseli do niezawodnego modelu świata nie nastąpił. Osiągnięcie tego celu prawdopodobnie będzie zależeć mniej od wizualnej elegancji, a bardziej od lepszego zrozumienia mechanizmów przyczynowych i umiejętności zachowania spójności informacji w czasie.