NVIDIA udostępniła demo modelu wizyjno-językowego Gemma 4 VLA działającego offline na płytce Jetson z 8 GB pamięci. Model autonomicznie decyduje o użyciu kamery.
Źródło zdjęcia: huggingface.co
NVIDIA zaprezentowała działającą na płytce Jetson Orin Nano Super demonstrację modelu Gemma 4 VLA (Vision-Language-Action), który autonomicznie decyduje, czy potrzebuje użyć kamery internetowej do udzielenia odpowiedzi. Całe demo wraz z kodem źródłowym zostało udostępnione przez firmę, pokazując możliwości lokalnego uruchamiania zaawansowanego modelu wizyjno-językowego na sprzęcie z zaledwie 8 GB pamięci RAM.
System działa w prostym przepływie: użytkownik mówi, Parakeet STT konwertuje mowę na tekst, Gemma 4 przetwarza zapytanie i autonomicznie decyduje, czy potrzebuje "otworzyć oczy" i zrobić zdjęcie kamerą, po czym Kokoro TTS przekształca odpowiedź z powrotem na mowę.
• Autonomiczne widzenie: Gemma 4 VLA samodzielnie decyduje, kiedy potrzebuje wizualnego kontekstu - bez słów kluczy czy zakodowanej logiki
• Lokalność działania: Cały system działa offline na płytce Jetson Orin Nano Super z 8 GB RAM, bez potrzeby połączenia z chmurą
• Optymalizacja pamięci: Model wykorzystuje kwantyzację Q4_K_M, a autorzy zalecają dodatkowe 8 GB swapa oraz zamykanie nieużywanych procesów
• Otwarte źródła: Kompletny kod Python wraz z instrukcjami instalacji dostępny na GitHub pod licencją open source
• Wydajność GPU: Wszystkie warstwy modelu działają na GPU dzięki parametrowi -ngl 99 w llama-server
Demo wykorzystuje NVIDIA Jetson Orin Nano Super (8 GB) wraz z kamerą Logitech C920 z wbudowanym mikrofonem, głośnikiem USB i klawiaturą do obsługi nagrywania przez spację. Jak podkreśla autor Asier Arranz z NVIDIA, system nie jest ograniczony do konkretnych urządzeń - działać powinien z dowolną kamerą, mikrofonem i głośnikiem rozpoznawanym przez system Linux.
Kluczowym elementem jest natywna kompilacja llama.cpp z włączoną obsługą CUDA i architekturą 87 (specyficzną dla Jetson Orin). Model Gemma 4 w wersji Q4_K_M zajmuje znacznie mniej miejsca niż pełna wersja, a dodatkowy plik mmproj-gemma4-e2b-f16.gguf odpowiada za projekcję wizualną - bez niego model nie może "widzieć".
Cały system zmieścił się w pojedynczym pliku Python Gemma4_vla.py, który automatycznie pobiera potrzebne modele STT/TTS z Hugging Face przy pierwszym uruchomieniu. Autor zaleca utworzenie 8 GB swapa jako zabezpieczenia przed zabijaniem procesu przez system przy ładowaniu modelu, oraz zamknięcie Docker, containerd i innych "pożeraczy pamięci".
Dla użytkowników z jeszcze większymi ograniczeniami pamięciowymi dostępna jest wersja Q3_K_M - lżejsza, ale nieco mniej inteligentna. Server llama działa z kontekstem 2048 tokenów, obrazy przetwarzane są z ustalonymi 70 tokenami, a parametr --flash-attn dodatkowo optymalizuje wykorzystanie pamięci.
Projekt pokazuje, jak zaawansowane możliwości AI stają się dostępne na sprzęcie klasy embedded, otwierając drogę do lokalnych aplikacji AI w robotyce, IoT czy systemach przemysłowych działających bez połączenia internetowego.

Jensen Huang osobiście zaprezentował superchip RTX Spark w koreańskich PC bangach, współpracując z deweloperami KRAFTON i NC oraz mistrzami esportu.

Badacze opracowali rewolucyjny układ FeMEMS, który zapisuje dane elektrycznie, ale odczytuje je przez mikroskopijne drgania, drastycznie zmniejszając zużycie energii AI.
Narzędzie wykorzystuje model Qwen3–8B do automatycznego generowania zapytań LinkedIn i oceny dopasowania ofert według pięciu kryteriów dla absolwentów.