DiffusionGemma generuje tekst blokami zamiast słowo po słowie, osiągając 4x lepszą wydajność na GPU NVIDIA. Model działa lokalnie bez kosztów chmury.

Źródło zdjęcia: NVIDIA Blog
Google DeepMind we współpracy z NVIDIA wypuścił DiffusionGemma — eksperymentalny otwarty model AI, który generuje tekst w zupełnie nowy sposób. Zamiast tworzyć słowa jedno po drugim, DiffusionGemma produkuje całe bloki tekstu równolegle, co przekłada się na nawet 4-krotnie szybsze działanie na kartach graficznych NVIDIA. Model został zoptymalizowany dla lokalnych systemów NVIDIA, od komputerów osobistych z GeForce RTX po profesjonalne stacje robocze.
DiffusionGemma opiera się na architekturze Gemma 4 z 26 miliardami parametrów, ale aktywuje jedynie 3,8 miliarda parametrów na krok. Model działa pod licencją Apache 2.0 i jest dostępny od pierwszego dnia w popularnych frameworkach jak Hugging Face Transformers, vLLM czy Unsloth.
Niemal wszystkie popularne dziś duże modele językowe działają autoregresywnie — generują tekst słowo po słowie, gdzie każde nowe słowo zależy od poprzedniego. Ten sekwencyjny proces sprawia, że AI wydaje się „pisać” w czasie rzeczywistym.
DiffusionGemma wybiera zupełnie inną drogę. Zbudowany na architekturze Gemma 4 26B mixture-of-experts, generuje tekst podobnie jak modele dyfuzyjne tworzą obrazy — zaczynając od szumu i jednocześnie rafinując cały blok tekstu. Każdy krok usuwa szum z nawet 256 tokenów równolegle, zamiast emitować pojedynczy token i czekać na obliczenie następnego.
Rezultatem jest model, który „myśli” blokami zamiast sekwencyjnie. W przypadku pracy wrażliwej na opóźnienia i dla pojedynczych użytkowników — jak interaktywny chat, pętle agentów czy asystenci działający lokalnie — ta równoległość przekłada się na odpowiedzi wystarczająco szybkie, by nadążyć za tempem myślenia i iteracji programistów.
Generowanie pojedynczych tokenów to fundamentalnie problem ograniczony przez pamięć — tradycyjny model językowy spędza większość czasu czekając na przepustowość pamięci, nie wykonując obliczeń, co pozostawia niewykorzystany potencjał obliczeniowy.
Dyfuzja odwraca to równanie. Przesyłanie pełnego bloku 256 tokenów przez transformer równolegle to zadanie ograniczone obliczeniowo — dokładnie to, do czego zostały zaprojektowane GPU NVIDIA. Rdzenie Tensor Core NVIDIA przyspieszają gęste obliczenia równoległe, a stos oprogramowania CUDA pozwala modelowi działać efektywnie od pierwszego dnia bez dostosowań.
Przekłada się to na konkretne liczby. DiffusionGemma osiąga wydajność na poziomie 1000 tokenów/sekundę na pojedynczej karcie NVIDIA H100 Tensor Core GPU, 150 tokenów/sekundę na NVIDIA DGX Spark i najszybsze lokalne wnioskowanie na NVIDIA DGX Station — w przybliżeniu 4 razy szybciej niż równoważny model autoregresywny działający w tym samym trybie dla pojedynczego użytkownika.
Model jest dostępny na całej linii produktów NVIDIA — od komputerów DGX Spark z chipem GB10 Grace Blackwell i 128GB zunifikowanej pamięci, przez stacje robocze RTX PRO 6000, po karty GeForce RTX (wsparcie llama.cpp wkrótce).
Najszybszym sposobem rozpoczęcia testów jest użycie Hugging Face Transformers, który uruchamia DiffusionGemma na GeForce RTX 5090 lub DGX Spark od razu po instalacji. Do wnioskowania o wyższej przepustowości dostępne jest wsparcie vLLM. Fine-tuning modelu jest możliwy przez Unsloth i framework NVIDIA NeMo, z gotowymi playbooks dla DGX Spark.
Model można testować za darmo przez interfejsy API hostowane przez NVIDIA na build.nvidia.com oraz bezpośrednio na Hugging Face.

xAI wykorzystywało przez miesiące odpowiedzi Claude do trenowania własnych modeli kodowania, zanim Anthropic odcięło dostęp w styczniu.

Pionier AI argumentuje, że systemy oparte na uczeniu nadzorowanym mogą być nowatorskie lub dobre, ale nigdy obie cechy jednocześnie.

Administracja Trumpa rozmawia z firmami AI o objęciu udziałów przez rząd. Zyski mogłyby trafić do budżetu lub bezpośrednio do obywateli.