NVIDIA udostępniła demo modelu wizyjno-językowego Gemma 4 VLA działającego offline na płytce Jetson z 8 GB pamięci. Model autonomicznie decyduje o użyciu kamery.
Źródło zdjęcia: huggingface.co
NVIDIA zaprezentowała działającą na płytce Jetson Orin Nano Super demonstrację modelu Gemma 4 VLA (Vision-Language-Action), który autonomicznie decyduje, czy potrzebuje użyć kamery internetowej do udzielenia odpowiedzi. zostało udostępnione przez firmę, pokazując możliwości lokalnego uruchamiania zaawansowanego modelu wizyjno-językowego na sprzęcie z zaledwie 8 GB pamięci RAM.
System działa w prostym przepływie: użytkownik mówi, Parakeet STT konwertuje mowę na tekst, Gemma 4 przetwarza zapytanie i autonomicznie decyduje, czy potrzebuje "otworzyć oczy" i zrobić zdjęcie kamerą, po czym Kokoro TTS przekształca odpowiedź z powrotem na mowę.
• Autonomiczne widzenie: Gemma 4 VLA samodzielnie decyduje, kiedy potrzebuje wizualnego kontekstu - bez słów kluczy czy zakodowanej logiki
• Lokalność działania: Cały system działa offline na płytce Jetson Orin Nano Super z 8 GB RAM, bez potrzeby połączenia z chmurą
• Optymalizacja pamięci: Model wykorzystuje kwantyzację Q4_K_M, a autorzy zalecają dodatkowe 8 GB swapa oraz zamykanie nieużywanych procesów
• Otwarte źródła: Kompletny kod Python wraz z instrukcjami instalacji dostępny na GitHub pod licencją open source
• Wydajność GPU: Wszystkie warstwy modelu działają na GPU dzięki parametrowi -ngl 99 w llama-server
Demo wykorzystuje NVIDIA Jetson Orin Nano Super (8 GB) wraz z kamerą Logitech C920 z wbudowanym mikrofonem, głośnikiem USB i klawiaturą do obsługi nagrywania przez spację. Jak podkreśla autor Asier Arranz z NVIDIA, system nie jest ograniczony do konkretnych urządzeń - działać powinien z dowolną kamerą, mikrofonem i głośnikiem rozpoznawanym przez system Linux.
Kluczowym elementem jest natywna kompilacja llama.cpp z włączoną obsługą CUDA i architekturą 87 (specyficzną dla Jetson Orin). Model Gemma 4 w wersji Q4_K_M zajmuje znacznie mniej miejsca niż pełna wersja, a dodatkowy plik mmproj-gemma4-e2b-f16.gguf odpowiada za projekcję wizualną - bez niego model nie może "widzieć".
Cały system zmieścił się w pojedynczym pliku Python Gemma4_vla.py, który automatycznie pobiera potrzebne modele STT/TTS z Hugging Face przy pierwszym uruchomieniu. Autor zaleca utworzenie 8 GB swapa jako zabezpieczenia przed zabijaniem procesu przez system przy ładowaniu modelu, oraz zamknięcie Docker, containerd i innych "pożeraczy pamięci".
Dla użytkowników z jeszcze większymi ograniczeniami pamięciowymi dostępna jest wersja Q3_K_M - lżejsza, ale nieco mniej inteligentna. Server llama działa z kontekstem 2048 tokenów, obrazy przetwarzane są z ustalonymi 70 tokenami, a parametr --flash-attn dodatkowo optymalizuje wykorzystanie pamięci.
Projekt pokazuje, jak zaawansowane możliwości AI stają się dostępne na sprzęcie klasy embedded, otwierając drogę do lokalnych aplikacji AI w robotyce, IoT czy systemach przemysłowych działających bez połączenia internetowego.