NVIDIA przedstawiła modele Nemotron-Labs Diffusion z równoległym generowaniem tokenów, osiągające do 6,4× wyższą szybkość przy zachowaniu jakości.
Źródło zdjęcia: huggingface.co
NVIDIA przedstawiła rodzinę modeli Nemotron-Labs Diffusion, które rewolucjonizują generowanie tekstu dzięki równoległemu przetwarzaniu tokenów zamiast tradycyjnego podejścia sekwencyjnego. Nowe modele oferują do 6,4× wyższą szybkość generowania przy zachowaniu porównywalnej jakości, jak wynika z raportu technicznego NVIDIA.
Technologia diffusion language models (DLM) umożliwia generowanie wielu tokenów jednocześnie, a następnie iteracyjne udoskonalanie wyników w kolejnych krokach. To podejście lepiej wykorzystuje możliwości obliczeniowe nowoczesnych procesorów GPU i oferuje wbudowaną możliwość kontroli budżetu obliczeniowego poprzez regulację liczby kroków refinement.
Tradycyjne duże modele językowe (LLM) generują tekst autoregresywnie — jeden token na raz, gdzie każdy nowy token zależy od wszystkich poprzednich. To podejście, choć stabilne i proste w implementacji, tworzy istotne ograniczenie wydajności: każdy nowy token wymaga pełnego przejścia przez model, a wszystkie wagi muszą być załadowane z pamięci przed rozpoczęciem obliczeń.
Nemotron-Labs Diffusion wprowadza fundamentalną zmianę w tym paradygmacie. Modele te wykorzystują równoległe generowanie wielu tokenów, co lepiej wykorzystuje architekturę obliczeniową nowoczesnych GPU. Dodatkowo, w przeciwieństwie do modeli autoregresywnych, które nie mogą poprawiać już wygenerowanych tokenów, modele diffusion mają wbudowaną możliwość rewizji wcześniejszych wyników, co czyni je bardziej odpowiednimi do zadań wymagających edycji tekstu czy wypełniania luk.
Kluczową innowacją Nemotron-Labs Diffusion jest elastyczna architektura obsługująca różne strategie generowania w zależności od potrzeb aplikacji:
Tryb autoregresywny działa jak standardowy model LLM, zachowując kompatybilność z istniejącymi przepływami pracy deweloperskich. Tryb diffusion generuje tekst blok po bloku, stopniowo udoskonalając tokeny w wielokrotnych krokach. Tryb self-speculation wykorzystuje diffusion do tworzenia wielokrotnych kandydatów tokenów, a następnie używa dekodowania autoregresywnego do ich weryfikacji.
Ta elastyczność pozwala deweloperom na bezproblemowe przełączanie między trybami w czasie wdrożenia, bez konieczności zmian na poziomie aplikacji. Rozwiązanie to jest szczególnie wartościowe dla obciążeń o nieprzewidywalnych rozmiarach partii czy pojedynczych zapytań.
Według pomiarów NVIDIA, model 8B w trybie diffusion osiąga 2,6× wyższą wartość TPF (tokens per forward pass) niż modele autoregresywne. Tryb self-speculation podnosi tę wartość do 6× dla linearnej wersji i 6,4× dla kwadratowej, zachowując porównywalną dokładność w ocenianych zadaniach.
Rodzina modeli obejmuje wersje bazowe i dostrojone do konwersacji, wszystkie dostępne na platformie HuggingFace. NVIDIA udostępniła również pełny kod treningowy poprzez framework Megatron Bridge, umożliwiając badaczom i deweloperom dalsze eksperymenty z technologią. Wsparcie dla wdrożenia będzie wkrótce dostępne w głównej gałęzi SGLang.
Nemotron-Labs Diffusion reprezentuje znaczący krok w kierunku bardziej efektywnego generowania tekstu, łącząc zalety równoległego przetwarzania z elastycznością różnych strategii dekodowania w jednej, komercyjnie dostępnej platformie.

Mythos Preview łączy małe podatności w działające exploity i tworzy proof-of-concept kod. Cloudflare przetestował model na 50+ repozytoriach.

Naukowcy stworzyli pierwszy system AI, który przekształca opisane słowami preferencje w automatyczne projektowanie struktur 3D z 60% skutecznością.

Naukowcy stworzyli SOLAR — autonomicznego agenta AI, który adaptuje się do nowych zadań bez katastrofalnego zapominania wcześniej nabytej wiedzy.