NVIDIA prezentuje Nemotron 3 Nano Omni — pierwszy otwarty model multimodalny, który osiąga 9x wyższą przepustowość niż konkurencja w agentach AI.

Źródło zdjęcia: NVIDIA Blog
MIT Technology Review ostrzega przed rosnącą falą cyberataków z AI, podczas gdy w medycynie brakuje dowodów na rzeczywistą skuteczność narzędzi AI.

Startup z MIT demonstruje roboty manipulujące przedmiotami z naturalną płynnością, wykorzystując uczenie ze wzmocnieniem do przełamania bariery symulacji.
NVIDIA zaprezentowała dziś model Nemotron 3 Nano Omni — pierwszy otwarty model multimodalny, który łączy możliwości wizyjne, audio i językowe w jednym systemie. Nowe rozwiązanie ma znacząco przyspieszyć działanie agentów AI i obniżyć koszty ich działania w porównaniu z dotychczasowymi rozwiązaniami opartymi na oddzielnych modelach. Model został zaprezentowany na oficjalnym blogu NVIDIA wraz z informacjami o pierwszych wdrożeniach w firmach takich jak Palantir czy Dell Technologies.
Nemotron 3 Nano Omni wykorzystuje hybrydową architekturę mixture-of-experts o parametrze 30B-A3B, która eliminuje potrzebę używania oddzielnych modeli do percepcji. Dzięki temu agenci AI mogą osiągnąć do 9 razy wyższą przepustowość niż inne otwarte modele omni o podobnej interaktywności.
Dotychczasowe systemy agentów AI wymagały używania oddzielnych modeli do przetwarzania obrazu, dźwięku i tekstu. Takie podejście generowało opóźnienia przez wielokrotne procesy inferencji, fragmentowało kontekst między różnymi modalnościami i zwiększało koszty oraz błędy w czasie.
Gautier Cloix, CEO firmy H Company, która już wdraża nowy model, podkreśla praktyczne korzyści: „Aby zbudować użytecznych agentów, nie można czekać sekund na interpretację ekranu przez model. Dzięki Nemotron 3 Nano Omni nasi agenci mogą szybko interpretować nagrania ekranu w pełnej rozdzielczości HD — coś, co wcześniej nie było praktyczne”.
Model znajduje zastosowanie w trzech kluczowych obszarach. W przypadku agentów computer use, Nemotron 3 Nano Omni obsługuje pętlę percepcji dla agentów nawigujących po interfejsach graficznych z natywną rozdzielczością 1920×1080 pikseli. W analizie dokumentów interpretuje dokumenty, wykresy, tabele i zrzuty ekranu, umożliwiając spójne rozumowanie nad strukturą wizualną i treścią tekstową. Dla rozumienia audio i wideo model utrzymuje kontekst audio-wideo, łącząc to, co zostało powiedziane, pokazane i udokumentowane w jeden strumień rozumowania.
Nemotron 3 Nano Omni został wydany z otwartymi wagami, zbiorami danych i technikami treningu, co daje organizacjom pełną transparentność i kontrolę nad dostosowaniem i wdrożeniem modelu. Deweloperzy mogą używać narzędzi takich jak NVIDIA NeMo do personalizacji, ewaluacji i optymalizacji dla konkretnych przypadków użycia.
Rodzina modeli Nemotron 3 — obejmująca wersje Nano, Super i Ultra — odnotowała ponad 50 milionów pobrań w ciągu ostatniego roku. Model jest dostępny na platformach Hugging Face, OpenRouter i build.nvidia.com jako mikrousługa NVIDIA NIM, a także przez szerokie ekosystem partnerów chmurowych NVIDIA.
Nowy model NVIDIA Nemotron 3 Nano Omni reprezentuje znaczący krok naprzód w rozwoju efektywnych agentów AI, oferując przedsiębiorstwom i deweloperom możliwość budowy bardziej responsywnych i ekonomicznych systemów multimodalnych.