24 czerwca 20263 min czytania

Google wprowadza funkcję computer use do Gemini 3.5 Flash

Gemini 3.5 Flash otrzymał wbudowaną funkcję computer use, umożliwiając tworzenie agentów AI zdolnych do interakcji z różnymi platformami i aplikacjami.

Źródło zdjęcia: Google

Google wprowadza funkcję kontroli komputera bezpośrednio do modelu Gemini 3.5 Flash, umożliwiając tworzenie agentów AI zdolnych do interakcji z różnymi platformami. Wcześniej dostępna jedynie jako osobny model Gemini 2.5, funkcjonalność computer use została teraz zintegrowana natywnie z głównym modelem Flash.

Nowa implementacja pozwala deweloperom budować niestandardowych agentów, którzy potrafią widzieć, rozumować i podejmować działania w środowiskach przeglądarkowych, mobilnych i desktopowych. To znaczący krok w rozwoju autonomicznych systemów AI zdolnych do wykonywania złożonych zadań automatyzacyjnych.

Kluczowe wnioski

Gemini 3.5 Flash otrzymał wbudowaną funkcję computer use, wcześniej dostępną tylko jako osobny model Gemini 2.5.
Deweloperzy mogą teraz tworzyć agentów AI zdolnych do interakcji z przeglądarkami, aplikacjami mobilnymi i środowiskami desktop.
Google wprowadził specjalne systemy zabezpieczeń, w tym szkolenie przeciwko atakom prompt injection i opcjonalne mechanizmy weryfikacji.
Funkcjonalność jest dostępna przez Gemini API oraz platformę Gemini Enterprise Agent Platform.
Rozwiązanie ma szczególne zastosowanie w długoterminowej automatyzacji i testowaniu oprogramowania.

Możliwości i zastosowania

Gemini 3.5 Flash z funkcją computer use otwiera nowe możliwości dla automatyzacji procesów biznesowych. Model potrafi analizować interfejsy użytkownika, jak pokazano w przykładzie z audytem dokumentacji pod kątem dostępności czy kategoryzacją funkcji aplikacji Gemini.

Szczególną wartość rozwiązanie ma dla przedsiębiorstw prowadzących długoterminowe procesy automatyzacji, ciągłe testowanie oprogramowania oraz pracę z wieloma aplikacjami biznesowymi. Dzięki natywnej integracji z modelem Flash, deweloperzy zyskują dostęp do zaawansowanych możliwości rozumowania i podejmowania działań bez konieczności używania osobnych modeli specjalistycznych.

Bezpieczeństwo i zabezpieczenia

Google wprowadził szereg mechanizmów bezpieczeństwa w odpowiedzi na potencjalne zagrożenia związane z agentami działającymi w rzeczywistych środowiskach. Firma zastosowała ukierunkowane szkolenie adversarialne, aby zmniejszyć ryzyko ataków prompt injection.

Dodatkowo dostępne są dwa opcjonalne systemy zabezpieczeń dla przedsiębiorstw: wymaganie jawnej zgody użytkownika na działania wrażliwe lub nieodwracalne oraz automatyczne zatrzymywanie zadań w przypadku wykrycia pośredniego ataku prompt injection. Google zaleca podejście „defense-in-depth”, łączące te funkcje z bezpiecznym środowiskiem testowym, weryfikacją przez człowieka i ścisłą kontrolą dostępu.

Deweloperzy mogą już dziś rozpocząć pracę z nową funkcjonalnością przez demonstracyjne środowisko hostowane przez Browserbase lub bezpośrednio przez dokumentację i implementację referencyjną dostępną w Gemini API.

#Gemini #automatyzacja #Google DeepMind #agenci AI #computer use

Udostępnij

Źródła

Google DeepMind

Poprzedni

CEO Snowflake: chiński GLM-5.2 konkuruje z Opus 4.7 za ułamek ceny

Następny

OpenAI ulepsza GPT-5.5 Instant — model lepiej rozumie rzeczywiste intencje użytkowników

Podobne Publikacje

Biznes i Rynek

Ford przyznał się do błędu z AI i musiał zatrudnić z powrotem 350 inżynierów

Ford wygrał ranking jakości, ale przyznał, że zbyt mocno uwierzył w AI. Firma zatrudniła 350 doświadczonych inżynierów, by naprawić błędy algorytmów.

4 min25 czerwca

Narzędzia i Aplikacje

Claude Tag od Anthropic uczy się Twojej firmy analizując każdą wiadomość w Slacku

Anthropic wprowadza Claude Tag — AI-członka zespołu w Slacku z trwałą pamięcią, który uczy się kontekstu organizacyjnego i proaktywnie uczestniczy w pracy.

3 min23 czerwca

Badania i Nauka

Nowa metoda wykrywa i kontroluje sykofancję w modelach AI za pomocą kaskadowych cech liniowych

Badacze opracowali innowacyjną technikę eliminowania tendencji modeli AI do priorytetyzowania walidacji użytkownika nad prawdą.

3 min26 czerwca