NVIDIA przedstawia Nemotron 3 Nano Omni — model multimodalny oferujący 9x wyższą wydajność w analizie dokumentów, rozpoznawaniu mowy i rozumieniu wideo.
Źródło zdjęcia: huggingface.co

System PExA wykorzystuje równoległe przetwarzanie prostych zapytań testowych, osiągając przełomową dokładność 70,2% na benchmarku Spider 2.0.

Math Takes Two sprawdza czy agenty AI potrafią rozwinąć wspólny system liczbowy bez wcześniejszej wiedzy matematycznej poprzez komunikację wizualną.
NVIDIA ogłosiła Nemotron 3 Nano Omni — nowy model multimodalny zaprojektowany do analizy dokumentów, rozpoznawania mowy oraz rozumienia długich nagrań audio i wideo. Model stanowi rozszerzenie linii Nemotron o możliwości przetwarzania tekstu, obrazów, wideo i dźwięku w jednym systemie. Szczegóły techniczne i wyniki benchmarków zostały opublikowane w oficjalnym raporcie na platformie Hugging Face.
Nemotron 3 Nano Omni został zaprojektowany z myślą o pięciu głównych obszarach zastosowań. Pierwszym jest analiza rzeczywistych dokumentów — model radzi sobie z długimi, złożonymi dokumentami zawierającymi tabele, formuły, strukturę sekcji i odwołania między stronami. Może to być wykorzystane przy przetwarzaniu umów, dokumentów technicznych, raportów czy formularzy compliance.
Drugim obszarem jest automatyczne rozpoznawanie mowy (ASR), gdzie model osiąga wynik 5.95 w benchmarku HF Open ASR, przewyższając Qwen3-Omni (6.55). System radzi sobie z długimi nagraniami, różnymi akcentami i głosami na tle szumów.
Trzecim zastosowaniem jest rozumienie długich materiałów audio-wideo, szczególnie istotne dla nagrań ekranu z narracją, filmów szkoleniowych, spotkań z prezentacjami czy archiwów wideo. W benchmarku WorldSense model osiąga 55.4 punktów, a w DailyOmni — 74.1 punktów.
Model wykorzystuje zunifikowaną architekturę encoder-projector-decoder opartą na backbone'ie Nemotron 3 Nano 30B-A3B. Kodery specyficzne dla modalności łączą się z modelem językowym przez lekkie projektory, co pozwala na zachowanie szczegółów wizualnych i skalowanie do bardzo długich kontekstów multimodalnych.
W testach wydajności Nemotron 3 Nano Omni oferuje 7.4-krotnie wyższą efektywność systemową dla przypadków użycia z wieloma dokumentami i 9.2-krotnie wyższą efektywność dla materiałów wideo. W benchmarku VoiceBench osiąga 89.4 punktów, przewyższając Qwen3-Omni (88.8).
Model został przeszkolony przy użyciu etapowego wyrównania multimodalnego i rozszerzenia kontekstu, po którym zastosowano optymalizację preferencji i multimodalne uczenie przez wzmacnianie. Checkpointy w formatach BF16, FP8 i NVFP4 są dostępne na platformie Hugging Face.
Nemotron 3 Nano Omni stanowi znaczący krok naprzód w rozwoju modeli multimodalnych, oferując praktyczne rozwiązania dla przedsiębiorstw wymagających zaawansowanej analizy różnorodnych typów danych w jednym systemie.