System VisionClaw łączy ciągłe postrzeganie otoczenia przez okulary z wykonywaniem zadań cyfrowych, oferując o 13-37% szybsze działanie.

Źródło zdjęcia: The Decoder
Zespół badaczy z Uniwersytetu Colorado, Gwangju Institute of Science and Technology oraz Google opracował system VisionClaw, który łączy ciągłe postrzeganie otoczenia przez okulary Ray-Ban Meta z autonomicznym wykonywaniem zadań cyfrowych. Badanie pokazuje, jak zawsze aktywna sztuczna inteligencja zmienia sposób, w jaki ludzie korzystają z agentowych systemów AI.
VisionClaw wykorzystuje okulary Ray-Ban Meta bez wyświetlacza, które są połączone z Gemini Live i OpenClaw przez dedykowaną aplikację na smartfon. System umożliwia ciągłe strumieniowanie audio i obrazu z otoczenia użytkownika do modelu Gemini, który przetwarza dane multimodalne i odpowiada głosowo lub uruchamia zadania przez OpenClaw.
VisionClaw łączy percepcję pierwszoosobową z wykonywaniem zadań cyfrowych w jednym systemie. Okulary przesyłają ciągły strumień dźwięku i pojedyncze klatki obrazu do modelu Gemini, który przetwarza wielomodalne dane wejściowe. Jeśli zadanie wymaga działania, Gemini aktywuje OpenClaw, który ma dostęp do narzędzi takich jak przeglądarka, email, kalendarz czy wyszukiwarka internetowa, a następnie przekazuje wyniki z powrotem do modelu językowego.
Badacze przeprowadzili dwa studia porównujące VisionClaw z uproszczonymi systemami. W pierwszym badaniu z udziałem 12 uczestników porównywano VisionClaw z zawsze aktywnym AI na okularach Ray-Ban Meta (bez funkcji agentowych) oraz wersją OpenClaw na smartfonie (bez ciągłej świadomości otoczenia). Uczestnicy wykonywali cztery zadania obejmujące rzeczywiste obiekty lub dokumenty fizyczne.
W drugim, autobiograficznym badaniu terenowym, czterech autorów pracy używało systemu przez dłuższy okres, rejestrując 55 aktywnych dni uczestnictwa. W tym czasie wygenerowali 555 interakcji inicjowanych głosem, co dało łącznie 25,8 godzin użytkowania.
Badanie ujawniło cztery emergentne wzorce interakcji: otwarte, wieloetapowe rozmowy z agentem AI; spontaniczne przechwytywanie i późniejsze przypominanie informacji; mniej nachalcze, ale czasami mniej niezawodne korzystanie z AI bez ekranu; oraz rosnącą użyteczność w czasie wraz z gromadzeniem danych personalnych.
"Wyniki pokazują, że integracja percepcji i wykonania umożliwia szybsze wykonywanie zadań i zmniejsza koszty interakcji w porównaniu z systemami nie zawsze aktywnymi i nie agentowymi", piszą badacze.
Autorzy wskazują na kilka istotnych wyzwań: ryzyka prywatności wynikające z ciągłego nagrywania, obsługę dużych ilości danych personalnych oraz potrzebę projektowania systemów, które pozostają dyskretne w tle. Z technicznego punktu widzenia, badacze wykorzystali Ray-Ban Meta bez wyświetlacza, mimo że Meta sprzedaje już w USA wersję z wbudowanym ekranem, co mogłoby znacząco rozszerzyć możliwości AI.
Metodologiczne ograniczenia badania obejmują małe próby badawcze - pierwsze badanie liczyło tylko 12 uczestników, a drugie zaledwie czterech. Większym problemem jest fakt, że badanie terenowe przeprowadzili wyłącznie czterej autorzy pracy - ludzie, którzy zbudowali system i dokładnie wiedzą, jak działa.
VisionClaw reprezentuje przesunięcie od tradycyjnych asystentów głosowych reagujących na pojedyncze komendy w stronę ciągłego, kontekstowego towarzysza łączącego percepcję, pamięć i działanie w spójny system.