NVIDIA udostępniło Cosmos 3 — pierwszy otwarty model łączący generację wideo, rozumowanie fizyczne i akcje w jednej architekturze MoT.

Źródło zdjęcia: huggingface.co
NVIDIA zaprezentowało Cosmos 3 — pierwszy otwarty omni-model łączący generację świata, rozumowanie fizyczne i generację akcji w jednej architekturze. Model dostępny jest już na Hugging Face w dwóch wersjach: Nano (8B parametrów) i Super (32B parametrów).
Cosmos 3 to przełom w dziedzinie modeli podstawowych dla fizycznej AI. W przeciwieństwie do poprzednich wersji Cosmos, które wymagały osobnych modeli dla różnych zadań, Cosmos 3 integruje wszystkie funkcjonalności w jednej architekturze Mixture-of-Transformers (MoT).
Największą nowością Cosmos 3 jest unifikacja wszystkich funkcjonalności w jednym modelu. Wcześniej deweloperzy musieli używać oddzielnych modeli: Cosmos Predict dla generacji świata, Cosmos Transfer dla kontrolowanej generacji, Cosmos Reason dla rozumienia scen i Cosmos Policy dla generacji polityk. Cosmos 3 wykonuje wszystkie te zadania w jednym przejściu forward.
Architektura MoT dzieli sekwencję wejściową na dwie podsekwencje: autoregresywną (AR) odpowiedzialną za rozumowanie poprzez przewidywanie następnego tokenu oraz dyfuzyjną (DM) obsługującą generację poprzez iteracyjne usuwanie szumu. Obie podsekwencje używają oddzielnych zestawów parametrów, ale współdziałają przez wspólną uwagę (joint attention).
Model przetwarza wszystkie modalności — tekst, obraz, wideo, audio i akcje — w jednej przestrzeni reprezentacji. Każda modalność jest najpierw kodowana przez dedykowany enkoder (ViT dla rozumienia wizualnego, VAE dla generacji wizualnej/audio, wektory domenowe dla akcji), a następnie projektowana do wspólnej przestrzeni.
Cosmos 3 obsługuje szerokie spektrum zadań poprzez różne kombinacje modalności wejściowych i wyjściowych. Model może funkcjonować jako generator wideo z tekstu, obrazu lub wideo, model językowy wizyjny (VLM), model dynamiki wprzód i wstecz oraz model polityk robotycznych.
W praktycznych zastosowaniach Cosmos 3 generuje realistyczne i fizycznie prawdopodobne światy wideo dla robotyki, długoogonowych scenariuszy jazdy autonomicznej czy danych bezpieczeństwa magazynowego. Model potrafi również przeprowadzać rozumowanie typu chain-of-thought w aplikacjach jazdy autonomicznej.
Dla generacji wideo NVIDIA recommanduje używanie szczegółowych promptów w formie akapitów narracyjnych, podczas gdy generacja akcji wymaga zwięzłych promptów z odnośnikami przestrzennymi. Wraz z modelem udostępniono również szablony i najlepsze praktyki promptowania.
Cosmos 3 reprezentuje znaczący krok naprzód w rozwoju fizycznej AI, oferując jednolitą podstawę dla systemów zdolnych do rozumienia rzeczywistego świata — nie tylko pikseli i tokenów, ale ruchu, przyczynowości, fizyki i działania.

NSA wykorzystuje model AI Mythos do ofensywnych operacji cybernetycznych. Anthropic umieściło swoich inżynierów w agencji mimo sporu z Pentagonem.

Naukowcy przeanalizowali sposób, w jaki ukryte boty AI przez miesiące manipulowały użytkownikami podczas politycznych debat na Reddit.

Anthropic ujawnia szczegóły architektury bezpieczeństwa agentów AI. Claude Opus 4.7 ma zaledwie 0,1% podatności na prompt injection w pojedynczych próbach.