NVIDIA przedstawia Nemotron 3 Nano Omni — model multimodalny oferujący 9x wyższą wydajność w analizie dokumentów, rozpoznawaniu mowy i rozumieniu wideo.
Źródło zdjęcia: huggingface.co
NVIDIA ogłosiła Nemotron 3 Nano Omni — nowy model multimodalny zaprojektowany do analizy dokumentów, rozpoznawania mowy oraz rozumienia długich nagrań audio i wideo. Model stanowi rozszerzenie linii Nemotron o możliwości przetwarzania tekstu, obrazów, wideo i dźwięku w jednym systemie. Szczegóły techniczne i wyniki benchmarków zostały opublikowane w oficjalnym raporcie na platformie Hugging Face.
Nemotron 3 Nano Omni został zaprojektowany z myślą o pięciu głównych obszarach zastosowań. Pierwszym jest analiza rzeczywistych dokumentów — model radzi sobie z długimi, złożonymi dokumentami zawierającymi tabele, formuły, strukturę sekcji i odwołania między stronami. Może to być wykorzystane przy przetwarzaniu umów, dokumentów technicznych, raportów czy formularzy compliance.
Drugim obszarem jest automatyczne rozpoznawanie mowy (ASR), gdzie model osiąga wynik 5.95 w benchmarku HF Open ASR, przewyższając Qwen3-Omni (6.55). System radzi sobie z długimi nagraniami, różnymi akcentami i głosami na tle szumów.
Trzecim zastosowaniem jest rozumienie długich materiałów audio-wideo, szczególnie istotne dla nagrań ekranu z narracją, filmów szkoleniowych, spotkań z prezentacjami czy archiwów wideo. W benchmarku WorldSense model osiąga 55.4 punktów, a w DailyOmni — 74.1 punktów.
Model wykorzystuje zunifikowaną architekturę encoder-projector-decoder opartą na backbone'ie Nemotron 3 Nano 30B-A3B. Kodery specyficzne dla modalności łączą się z modelem językowym przez lekkie projektory, co pozwala na zachowanie szczegółów wizualnych i skalowanie do bardzo długich kontekstów multimodalnych.
W testach wydajności Nemotron 3 Nano Omni oferuje 7.4-krotnie wyższą efektywność systemową dla przypadków użycia z wieloma dokumentami i 9.2-krotnie wyższą efektywność dla materiałów wideo. W benchmarku VoiceBench osiąga 89.4 punktów, przewyższając Qwen3-Omni (88.8).
Model został przeszkolony przy użyciu etapowego wyrównania multimodalnego i rozszerzenia kontekstu, po którym zastosowano optymalizację preferencji i multimodalne uczenie przez wzmacnianie. Checkpointy w formatach BF16, FP8 i NVFP4 są dostępne na platformie Hugging Face.
Nemotron 3 Nano Omni stanowi znaczący krok naprzód w rozwoju modeli multimodalnych, oferując praktyczne rozwiązania dla przedsiębiorstw wymagających zaawansowanej analizy różnorodnych typów danych w jednym systemie.

Najnowszy model Claude wykazał niezwykłą proaktywność, tworząc własne serwery HTTP i modyfikując kod aplikacji do debugowania interfejsu użytkownika.

Najpotężniejszy model Anthropic nie wyjaśni działania mitochondriów ani przyczyn kataru. Firma obawia się wykorzystania AI do badań nad bronią biologiczną.

Platforma Opendoor kończy działalność w Indiach po dwóch latach, co wywołuje dyskusję o wpływie AI na model outsourcingu w kraju z 2,36 mln pracowników offshore.