10 czerwca 20264 min czytania

NVIDIA przyspiesza DiffusionGemma od Google DeepMind dla lokalnej sztucznej inteligencji

DiffusionGemma generuje tekst blokami zamiast słowo po słowie, osiągając 4x lepszą wydajność na GPU NVIDIA. Model działa lokalnie bez kosztów chmury.

Źródło zdjęcia: NVIDIA Blog

Google DeepMind we współpracy z NVIDIA wypuścił DiffusionGemma — eksperymentalny otwarty model AI, który generuje tekst w zupełnie nowy sposób. Zamiast tworzyć słowa jedno po drugim, DiffusionGemma produkuje całe bloki tekstu równolegle, co przekłada się na nawet 4-krotnie szybsze działanie na kartach graficznych NVIDIA. Model został zoptymalizowany dla lokalnych systemów NVIDIA, od komputerów osobistych z GeForce RTX po profesjonalne stacje robocze.

DiffusionGemma opiera się na architekturze Gemma 4 z 26 miliardami parametrów, ale aktywuje jedynie 3,8 miliarda parametrów na krok. Model działa pod licencją Apache 2.0 i jest dostępny od pierwszego dnia w popularnych frameworkach jak Hugging Face Transformers, vLLM czy Unsloth.

Kluczowe wnioski

Równoległa generacja tekstu — DiffusionGemma przetwarza do 256 tokenów na raz zamiast przewidywać jeden token sekwencyjnie, co radykalnie przyspiesza generowanie tekstu.
Wydajność na GPU NVIDIA — model osiąga 1000 tokenów/sekundę na pojedynczej karcie H100, 150 tokenów/sekundę na DGX Spark i do 800 tokenów/sekundę na DGX Station.
Lokalne działanie bez kosztów — całkowicie działa lokalnie na sprzęcie NVIDIA bez potrzeby chmury czy opłat za tokeny, z natychmiastowym wsparciem w głównych frameworkach.
Architektura mixture-of-experts — bazuje na Gemma 4 26B z głowicą dyfuzyjną, łącząc sprawdzoną architekturę z nowatorskim podejściem do generacji tekstu.
Optymalizacja dla pojedynczych użytkowników — szczególnie efektywny w scenariuszach interaktywnych, agentach AI i asystentach działających na urządzeniach lokalnych.

Rewolucyjna technologia generacji tekstu

Niemal wszystkie popularne dziś duże modele językowe działają autoregresywnie — generują tekst słowo po słowie, gdzie każde nowe słowo zależy od poprzedniego. Ten sekwencyjny proces sprawia, że AI wydaje się „pisać” w czasie rzeczywistym.

DiffusionGemma wybiera zupełnie inną drogę. Zbudowany na architekturze Gemma 4 26B mixture-of-experts, generuje tekst podobnie jak modele dyfuzyjne tworzą obrazy — zaczynając od szumu i jednocześnie rafinując cały blok tekstu. Każdy krok usuwa szum z nawet 256 tokenów równolegle, zamiast emitować pojedynczy token i czekać na obliczenie następnego.

Rezultatem jest model, który „myśli” blokami zamiast sekwencyjnie. W przypadku pracy wrażliwej na opóźnienia i dla pojedynczych użytkowników — jak interaktywny chat, pętle agentów czy asystenci działający lokalnie — ta równoległość przekłada się na odpowiedzi wystarczająco szybkie, by nadążyć za tempem myślenia i iteracji programistów.

Optymalizacja dla GPU NVIDIA

Generowanie pojedynczych tokenów to fundamentalnie problem ograniczony przez pamięć — tradycyjny model językowy spędza większość czasu czekając na przepustowość pamięci, nie wykonując obliczeń, co pozostawia niewykorzystany potencjał obliczeniowy.

Dyfuzja odwraca to równanie. Przesyłanie pełnego bloku 256 tokenów przez transformer równolegle to zadanie ograniczone obliczeniowo — dokładnie to, do czego zostały zaprojektowane GPU NVIDIA. Rdzenie Tensor Core NVIDIA przyspieszają gęste obliczenia równoległe, a stos oprogramowania CUDA pozwala modelowi działać efektywnie od pierwszego dnia bez dostosowań.

Przekłada się to na konkretne liczby. DiffusionGemma osiąga wydajność na poziomie 1000 tokenów/sekundę na pojedynczej karcie NVIDIA H100 Tensor Core GPU, 150 tokenów/sekundę na NVIDIA DGX Spark i najszybsze lokalne wnioskowanie na NVIDIA DGX Station — w przybliżeniu 4 razy szybciej niż równoważny model autoregresywny działający w tym samym trybie dla pojedynczego użytkownika.

Dostępność i wdrożenie

Model jest dostępny na całej linii produktów NVIDIA — od komputerów DGX Spark z chipem GB10 Grace Blackwell i 128GB zunifikowanej pamięci, przez stacje robocze RTX PRO 6000, po karty GeForce RTX (wsparcie llama.cpp wkrótce).

Najszybszym sposobem rozpoczęcia testów jest użycie Hugging Face Transformers, który uruchamia DiffusionGemma na GeForce RTX 5090 lub DGX Spark od razu po instalacji. Do wnioskowania o wyższej przepustowości dostępne jest wsparcie vLLM. Fine-tuning modelu jest możliwy przez Unsloth i framework NVIDIA NeMo, z gotowymi playbooks dla DGX Spark.

Model można testować za darmo przez interfejsy API hostowane przez NVIDIA na build.nvidia.com oraz bezpośrednio na Hugging Face.

#DiffusionGemma #Google DeepMind #GPU #NVIDIA #lokalne AI

Udostępnij

Źródła

NVIDIA AI Blog

Poprzedni

DiffusionGemma: Google prezentuje model AI generujący tekst 4 razy szybciej

Następny

Claude Fable 5 odmawia odpowiedzi na podstawowe pytania o biologię. Anthropic tłumaczy się bezpieczeństwem

Podobne Publikacje

Biznes i Rynek

NVIDIA uruchomiła superkomputer AI w Naval Postgraduate School

Superkomputer DGX GB300 z NVIDIA obsłuży 1500 studentów wojskowych, umożliwiając trenowanie modeli AI i symulacje w cyberbezpieczeństwie oraz prognozowaniu.

4 min23 lipca

Narzędzia i Aplikacje

Robot Jibo powraca jako urządzenie ubieralne iKairos za 249 dolarów

Lingverse zebrało 29 mln dolarów na iKairos — następcę robota Jibo w formie gadżetu ubieralnego, który przekształca codzienne momenty w AI-obrazy.

4 min23 lipca

Modele AI

Anthropic wydała Claude Opus 5 z możliwościami zbliżonymi do Fable 5

Nowy model Claude Opus 5 otrzymał wzmocnione zabezpieczenia cyberbezpieczeństwa po konfliktach z rządem USA i oferuje lepsze programowanie.

4 min24 lipca

Kluczowe wnioski

Równoległa generacja tekstu — DiffusionGemma przetwarza do 256 tokenów na raz zamiast przewidywać jeden token sekwencyjnie, co radykalnie przyspiesza generowanie tekstu.

Wydajność na GPU NVIDIA — model osiąga 1000 tokenów/sekundę na pojedynczej karcie H100, 150 tokenów/sekundę na DGX Spark i do 800 tokenów/sekundę na DGX Station.

Lokalne działanie bez kosztów — całkowicie działa lokalnie na sprzęcie NVIDIA bez potrzeby chmury czy opłat za tokeny, z natychmiastowym wsparciem w głównych frameworkach.

Architektura mixture-of-experts — bazuje na Gemma 4 26B z głowicą dyfuzyjną, łącząc sprawdzoną architekturę z nowatorskim podejściem do generacji tekstu.

Optymalizacja dla pojedynczych użytkowników — szczególnie efektywny w scenariuszach interaktywnych, agentach AI i asystentach działających na urządzeniach lokalnych.

Rewolucyjna technologia generacji tekstu

Optymalizacja dla GPU NVIDIA

Dostępność i wdrożenie

Model można testować za darmo przez interfejsy API hostowane przez NVIDIA na build.nvidia.com oraz bezpośrednio na Hugging Face.