1 czerwca 20264 min czytania

NVIDIA Cosmos 3: pierwszy otwarty omni-model dla fizycznej AI już dostępny

NVIDIA udostępniło Cosmos 3 — pierwszy otwarty model łączący generację wideo, rozumowanie fizyczne i akcje w jednej architekturze MoT.

Źródło zdjęcia: huggingface.co

NVIDIA zaprezentowało Cosmos 3 — pierwszy otwarty omni-model łączący generację świata, rozumowanie fizyczne i generację akcji w jednej architekturze. Model dostępny jest już na Hugging Face w dwóch wersjach: Nano (8B parametrów) i Super (32B parametrów).

Cosmos 3 to przełom w dziedzinie modeli podstawowych dla fizycznej AI. W przeciwieństwie do poprzednich wersji Cosmos, które wymagały osobnych modeli dla różnych zadań, Cosmos 3 integruje wszystkie funkcjonalności w jednej architekturze Mixture-of-Transformers (MoT).

Kluczowe wnioski

Cosmos 3 to pierwszy otwarty omni-model łączący generację wideo, rozumowanie fizyczne i generację akcji w jednej architekturze MoT.
Dostępne są dwie wersje: Cosmos 3 Nano (8B parametrów) dla stacji roboczych oraz Cosmos 3 Super (32B parametrów) dla dużych wdrożeń.
Model obsługuje wszystkie modalności — tekst, obraz, wideo, audio i akcje — w jednym ujednoliconym przepływie inference'u.
Integracja z Diffusers na Hugging Face oraz otwarte skrypty post-treningu umożliwiają dostosowanie do własnych danych.
Zastosowania obejmują robotykę, pojazdy autonomiczne, symulacje i generację syntetycznych danych treningowych.

Rewolucja w architekturze fizycznej AI

Największą nowością Cosmos 3 jest unifikacja wszystkich funkcjonalności w jednym modelu. Wcześniej deweloperzy musieli używać oddzielnych modeli: Cosmos Predict dla generacji świata, Cosmos Transfer dla kontrolowanej generacji, Cosmos Reason dla rozumienia scen i Cosmos Policy dla generacji polityk. Cosmos 3 wykonuje wszystkie te zadania w jednym przejściu forward.

Architektura MoT dzieli sekwencję wejściową na dwie podsekwencje: autoregresywną (AR) odpowiedzialną za rozumowanie poprzez przewidywanie następnego tokenu oraz dyfuzyjną (DM) obsługującą generację poprzez iteracyjne usuwanie szumu. Obie podsekwencje używają oddzielnych zestawów parametrów, ale współdziałają przez wspólną uwagę (joint attention).

Model przetwarza wszystkie modalności — tekst, obraz, wideo, audio i akcje — w jednej przestrzeni reprezentacji. Każda modalność jest najpierw kodowana przez dedykowany enkoder (ViT dla rozumienia wizualnego, VAE dla generacji wizualnej/audio, wektory domenowe dla akcji), a następnie projektowana do wspólnej przestrzeni.

Możliwości i zastosowania praktyczne

Cosmos 3 obsługuje szerokie spektrum zadań poprzez różne kombinacje modalności wejściowych i wyjściowych. Model może funkcjonować jako generator wideo z tekstu, obrazu lub wideo, model językowy wizyjny (VLM), model dynamiki wprzód i wstecz oraz model polityk robotycznych.

W praktycznych zastosowaniach Cosmos 3 generuje realistyczne i fizycznie prawdopodobne światy wideo dla robotyki, długoogonowych scenariuszy jazdy autonomicznej czy danych bezpieczeństwa magazynowego. Model potrafi również przeprowadzać rozumowanie typu chain-of-thought w aplikacjach jazdy autonomicznej.

Dla generacji wideo NVIDIA recommanduje używanie szczegółowych promptów w formie akapitów narracyjnych, podczas gdy generacja akcji wymaga zwięzłych promptów z odnośnikami przestrzennymi. Wraz z modelem udostępniono również szablony i najlepsze praktyki promptowania.

Cosmos 3 reprezentuje znaczący krok naprzód w rozwoju fizycznej AI, oferując jednolitą podstawę dla systemów zdolnych do rozumienia rzeczywistego świata — nie tylko pikseli i tokenów, ale ruchu, przyczynowości, fizyki i działania.

#NVIDIA #Cosmos 3 #fizyczna AI #omni-model #Hugging Face

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

OpenAI udostępnia bezpłatnie model AI do nauk biologicznych w ramach programu bioobronności

Następny

ChatGPT tworzy teraz narracyjne profile użytkowników podzielone na kategorie pracy, hobby i podróży

Podobne Publikacje

Biznes i Rynek

Anthropic prowadził rozmowy o przejęciu Physical Intelligence mimo oficjalnych zaprzeczeń

Giganty AI walczą o przyszłość robotyki. Anthropic rzeczywiście rozmawiał z Physical Intelligence o przejęciu, mimo że CEO firmy zaprzeczył plotkom.

4 min22 lipca

Biznes i Rynek

Mania AI niszczy globalne podejmowanie decyzji — raport z frontu

Konsultant IT obserwujący setki projektów AI przez półtora roku nie widział ani jednego sukcesu. Organizacje opanowała masowa psychoza.

4 min19 lipca

Narzędzia i Aplikacje

Claude Cowork uczy się nowych umiejętności przez nagrania ekranu z komentarzem głosowym

Anthropic dodał do Claude Cowork funkcję nagrywania umiejętności przez screen recording z narracją. Zapisane zadania można potem automatycznie powtarzać.

3 min21 lipca

Kluczowe wnioski

Cosmos 3 to pierwszy otwarty omni-model łączący generację wideo, rozumowanie fizyczne i generację akcji w jednej architekturze MoT.

Dostępne są dwie wersje: Cosmos 3 Nano (8B parametrów) dla stacji roboczych oraz Cosmos 3 Super (32B parametrów) dla dużych wdrożeń.

Model obsługuje wszystkie modalności — tekst, obraz, wideo, audio i akcje — w jednym ujednoliconym przepływie inference'u.

Integracja z Diffusers na Hugging Face oraz otwarte skrypty post-treningu umożliwiają dostosowanie do własnych danych.

Zastosowania obejmują robotykę, pojazdy autonomiczne, symulacje i generację syntetycznych danych treningowych.

Rewolucja w architekturze fizycznej AI

Możliwości i zastosowania praktyczne