28 kwietnia 20264 min czytania

NVIDIA Nemotron 3 Nano Omni — nowy model multimodalny do dokumentów, audio i wideo

NVIDIA przedstawia Nemotron 3 Nano Omni — model multimodalny oferujący 9x wyższą wydajność w analizie dokumentów, rozpoznawaniu mowy i rozumieniu wideo.

Źródło zdjęcia: huggingface.co

NVIDIA ogłosiła Nemotron 3 Nano Omni — nowy model multimodalny zaprojektowany do analizy dokumentów, rozpoznawania mowy oraz rozumienia długich nagrań audio i wideo. Model stanowi rozszerzenie linii Nemotron o możliwości przetwarzania tekstu, obrazów, wideo i dźwięku w jednym systemie. Szczegóły techniczne i wyniki benchmarków zostały opublikowane w oficjalnym raporcie na platformie Hugging Face.

Kluczowe wnioski

Nemotron 3 Nano Omni osiąga najlepsze wyniki w benchmarkach rozumienia dokumentów, zajmując pierwsze miejsca w MMlongbench-Doc (57.5 punktów) i OCRBenchV2 (65.8 punktów).
Model oferuje 9-krotnie wyższą przepustowość i 2.9-krotnie szybsze przetwarzanie w porównaniu do alternatywnych rozwiązań multimodalnych.
System obsługuje dokumenty liczące ponad 100 stron oraz długie nagrania audio-wideo z narracją i różnorodnymi źrółami dźwięku.
Architektura łączy hybrydowy backbone Mamba-Transformer z koderami C-RADIOv4-H (wizja) i Parakeet-TDT-0.6B-v2 (audio).
Model przewyższa konkurencyjny Qwen3-Omni w większości testowanych kategorii, szczególnie w analizie GUI i rozumieniu wideo.

Zastosowania w praktyce

Nemotron 3 Nano Omni został zaprojektowany z myślą o pięciu głównych obszarach zastosowań. Pierwszym jest analiza rzeczywistych dokumentów — model radzi sobie z długimi, złożonymi dokumentami zawierającymi tabele, formuły, strukturę sekcji i odwołania między stronami. Może to być wykorzystane przy przetwarzaniu umów, dokumentów technicznych, raportów czy formularzy compliance.

Drugim obszarem jest automatyczne rozpoznawanie mowy (ASR), gdzie model osiąga wynik 5.95 w benchmarku HF Open ASR, przewyższając Qwen3-Omni (6.55). System radzi sobie z długimi nagraniami, różnymi akcentami i głosami na tle szumów.

Trzecim zastosowaniem jest rozumienie długich materiałów audio-wideo, szczególnie istotne dla nagrań ekranu z narracją, filmów szkoleniowych, spotkań z prezentacjami czy archiwów wideo. W benchmarku WorldSense model osiąga 55.4 punktów, a w DailyOmni — 74.1 punktów.

Wydajność i architektura

Model wykorzystuje zunifikowaną architekturę encoder-projector-decoder opartą na backbone'ie Nemotron 3 Nano 30B-A3B. Kodery specyficzne dla modalności łączą się z modelem językowym przez lekkie projektory, co pozwala na zachowanie szczegółów wizualnych i skalowanie do bardzo długich kontekstów multimodalnych.

W testach wydajności Nemotron 3 Nano Omni oferuje 7.4-krotnie wyższą efektywność systemową dla przypadków użycia z wieloma dokumentami i 9.2-krotnie wyższą efektywność dla materiałów wideo. W benchmarku VoiceBench osiąga 89.4 punktów, przewyższając Qwen3-Omni (88.8).

Model został przeszkolony przy użyciu etapowego wyrównania multimodalnego i rozszerzenia kontekstu, po którym zastosowano optymalizację preferencji i multimodalne uczenie przez wzmacnianie. Checkpointy w formatach BF16, FP8 i NVFP4 są dostępne na platformie Hugging Face.

Nemotron 3 Nano Omni stanowi znaczący krok naprzód w rozwoju modeli multimodalnych, oferując praktyczne rozwiązania dla przedsiębiorstw wymagających zaawansowanej analizy różnorodnych typów danych w jednym systemie.

#ASR #Nemotron #analiza dokumentów #model multimodalny #NVIDIA

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

NVIDIA Nemotron 3 Nano Omni — pierwszy otwarty model łączący wizję, audio i język w jednym systemie

Następny

OpenAI ma problem z goblinami w najnowszym modelu kodującym

Podobne Publikacje

Etyka i Bezpieczeństwo

Twórcy AI obawiają się o życie. Groźby i protesty wobec firm sztucznej inteligencji

Siedmiokrotny wzrost gróźb wobec szefów firm AI, ataki na OpenAI i protesty z workami na zwłoki pokazują narastające społeczne napięcie wokół sztucznej inteligencji.

4 min25 lipca

Modele AI

Google wypuszcza model Gemini Spark, ale Europa musi czekać

Nowy model AI Gemini Spark trafia do pierwszych użytkowników, ale europejscy klienci nie mają do niego dostępu. Google wprowadza kolejne ograniczenia geograficzne.

2 min24 lipca

Etyka i Bezpieczeństwo

Hugging Face umożliwia łatwe tworzenie deepfake'ów rozbierających kobiety i dzieci

Raport AI Forensics ujawnił, że popularna platforma AI nie implementuje wystarczających zabezpieczeń przed tworzeniem niechcianych treści seksualnych.

4 min28 lipca

28 kwietnia 20264 min czytania

NVIDIA Nemotron 3 Nano Omni — nowy model multimodalny do dokumentów, audio i wideo

NVIDIA przedstawia Nemotron 3 Nano Omni — model multimodalny oferujący 9x wyższą wydajność w analizie dokumentów, rozpoznawaniu mowy i rozumieniu wideo.

Źródło zdjęcia: huggingface.co

Kluczowe wnioski

Nemotron 3 Nano Omni osiąga najlepsze wyniki w benchmarkach rozumienia dokumentów, zajmując pierwsze miejsca w MMlongbench-Doc (57.5 punktów) i OCRBenchV2 (65.8 punktów).
Model oferuje 9-krotnie wyższą przepustowość i 2.9-krotnie szybsze przetwarzanie w porównaniu do alternatywnych rozwiązań multimodalnych.
System obsługuje dokumenty liczące ponad 100 stron oraz długie nagrania audio-wideo z narracją i różnorodnymi źrółami dźwięku.
Architektura łączy hybrydowy backbone Mamba-Transformer z koderami C-RADIOv4-H (wizja) i Parakeet-TDT-0.6B-v2 (audio).
Model przewyższa konkurencyjny Qwen3-Omni w większości testowanych kategorii, szczególnie w analizie GUI i rozumieniu wideo.

Zastosowania w praktyce

Wydajność i architektura

#ASR #Nemotron #analiza dokumentów #model multimodalny #NVIDIA

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

NVIDIA Nemotron 3 Nano Omni — pierwszy otwarty model łączący wizję, audio i język w jednym systemie

Następny

OpenAI ma problem z goblinami w najnowszym modelu kodującym

Podobne Publikacje

Etyka i Bezpieczeństwo

Twórcy AI obawiają się o życie. Groźby i protesty wobec firm sztucznej inteligencji

Siedmiokrotny wzrost gróźb wobec szefów firm AI, ataki na OpenAI i protesty z workami na zwłoki pokazują narastające społeczne napięcie wokół sztucznej inteligencji.

4 min25 lipca

Modele AI

Google wypuszcza model Gemini Spark, ale Europa musi czekać

Nowy model AI Gemini Spark trafia do pierwszych użytkowników, ale europejscy klienci nie mają do niego dostępu. Google wprowadza kolejne ograniczenia geograficzne.

2 min24 lipca

Etyka i Bezpieczeństwo

Hugging Face umożliwia łatwe tworzenie deepfake'ów rozbierających kobiety i dzieci

Raport AI Forensics ujawnił, że popularna platforma AI nie implementuje wystarczających zabezpieczeń przed tworzeniem niechcianych treści seksualnych.

4 min28 lipca