13 maja 20264 min czytania

Google DeepMind prezentuje inteligentny kursor myszy napędzany AI

Google opracowało prototyp kursora, który rozumie kontekst i intencje użytkownika. Zamiast skomplikowanych poleceń wystarczy wskazać i powiedzieć.

Poprzedni

Android otrzyma agentów AI do rezerwacji podróży i wypełniania formularzy

Następny

Jak zespoły finansowe wykorzystują Codex OpenAI w codziennej pracy

Podobne Publikacje

Poradniki

Google obala mit o specjalnym SEO dla wyszukiwania AI — GEO i AEO to zwykłe SEO

Google oficjalnie zaprzecza potrzebie specjalnych strategii SEO dla AI. Firma twierdzi, że popularne koncepty GEO i AEO to zwykłe SEO pod nową nazwą.

4 min16 maja

Biznes i Rynek

Koniec procesu Musk vs Altman: spektakularna porażka prawników i rewelacje o xAI

Mowy końcowe w procesie Muska przeciwko Altmanowi ujawniły chaos w obronie i plotki o kulisach AI, w tym wykorzystanie OpenAI przez xAI.

Kluczowe wnioski

Google DeepMind opracowało prototyp kursora myszy napędzanego AI, który rozumie kontekst i intencje użytkownika bez szczegółowych poleceń tekstowych.

System pozwala na naturalne interakcje typu „pokaż to”, „napraw tamto” — podobnie jak ludzie komunikują się między sobą, wskazując i mówiąc jednocześnie.

Technologia jest już wdrażana w Chrome i nowych laptopach Googlebook, zastępując skomplikowane prompty prostym wskazywaniem.

AI przekształca piksele w interaktywne elementy — zdjęcie notatki staje się listą zadań, a kadr z filmu podróżniczego może prowadzić do rezerwacji restauracji.

Eksperymentalne wersje są dostępne w Google AI Studio do edycji obrazów i wyszukiwania miejsc na mapie.

Cztery zasady przyszłych interfejsów

Zespół DeepMind sformułował cztery fundamentalne zasady, które mają przełożyć ciężar przekazywania kontekstu z użytkownika na komputer.

Zachowanie ciągłości pracy oznacza, że możliwości AI powinny działać we wszystkich aplikacjach, nie zmuszając użytkowników do „objazdów AI” między nimi. W praktyce użytkownik może wskazać na PDF i poprosić o streszczenie punktowe do wklejenia bezpośrednio w emailu, najechać na tabelę statystyk i poprosić o wersję w formie wykresu kołowego, lub zaznaczyć przepis i poprosić o podwojenie wszystkich składników.

Zasada „pokaż i powiedz” ma uprościć obecny model wymagający precyzyjnych instrukcji. Zamiast pisać szczegółowe polecenia, użytkownik po prostu wskazuje, a AI rozumie dokładnie, które słowo, akapit, część obrazu lub blok kodu wymaga pomocy.

Naturalna komunikacja i inteligentne piksele

Wykorzystanie siły słów „to” i „tamto” naśladuje naturalną ludzką komunikację. W codziennych rozmowach rzadko mówimy długimi, szczegółowymi zdaniami — używamy skrótów jak „napraw to”, „przenieś tamto tutaj” czy „co to znaczy?”, opierając się na gestach i wspólnym kontekście.

Przekształcanie pikseli w interaktywne elementy to najbardziej rewolucyjna zmiana. Przez dziesięciolecia komputery śledziły tylko miejsce, na które wskazujemy. AI może teraz również zrozumieć, na co wskazujemy, przekształcając piksele w strukturalne elementy jak miejsca, daty i obiekty, z którymi użytkownicy mogą natychmiast wchodzić w interakcje.

Pierwsze wdrożenia w produktach Google

Google już integruje te zasady w Chrome i nowych laptopach Googlebook. Od dzisiaj, zamiast pisać skomplikowane polecenia, użytkownicy mogą używać kursora do zadawania pytań Gemini w Chrome o konkretne części stron internetowych. Możliwe jest na przykład wybieranie kilku produktów na stronie i proszenie o porównanie, lub wskazywanie miejsca, gdzie chcemy zwizualizować nową kanapę w salonie.

Wkrótce zostanie również wprowadzony Magic Pointer w laptopach Googlebook, umożliwiający użytkownikom wykorzystanie Gemini na wyciągnięcie ręki. Zespół planuje testowanie przyszłych koncepcji na różnych platformach, w tym w Google Labs' Disco.

Technologia ta reprezentuje fundamentalną zmianę w projektowaniu interfejsów — zamiast zmuszać użytkowników do adaptacji, systemy mają dostosowywać się do naturalnego ludzkiego zachowania, tworząc przyszłość, w której współpraca z AI będzie intuicyjna i płynna.