Agent Desktop to napisane w Rust narzędzie CLI, które pozwala agentom AI automatyzować aplikacje desktopowe poprzez drzewa dostępności zamiast zrzutów ekranu.
Źródło zdjęcia: GitHub
Agent Desktop to nowe narzędzie CLI napisane w języku Rust, które umożliwia agentom AI automatyzację aplikacji desktopowych bez konieczności analizowania zrzutów ekranu czy dopasowywania pikseli. Projekt dostępny jest na GitHubie i oferuje strukturalny dostęp do dowolnych aplikacji poprzez drzewa dostępności systemu operacyjnego.

Europejski zespół stworzył automatyczny system oceny ESG dla SME, wykorzystujący AI i platformę n8n. Rozwiązanie wspiera realizację Zielonego Ładu.

OpenAI planuje masową produkcję pierwszego telefonu agentowego w 2027 roku. Urządzenie będzie wyposażone w specjalny procesor MediaTek Dimensity 9600.
Agent Desktop został zbudowany jako natywne CLI w języku Rust, oferujące szybki, pojedynczy plik binarny bez zewnętrznych zależności. Kluczową innowacją jest biblioteka C-ABI (libagent_desktop_ffi), którą można załadować raz z różnych języków programowania zamiast uruchamiania CLI dla każdego wywołania.
System wykorzystuje referencje deterministyczne elementów (@e1, @e2), które optymalizują workflow dla agentów AI. Każda odpowiedź zwracana jest w strukturalnym formacie JSON z kodami błędów i wskazówkami odzyskiwania. Narzędzie obsługuje wszystkie główne platformy — macOS (arm64, x86_64), Linux (x86_64, arm64) oraz Windows (x86_64).
Dla gęstych aplikacji jak Slack, VS Code czy Notion, agent-desktop implementuje strategię progresywnego przechodzenia szkieletu. Proces rozpoczyna się od płytkiego przeglądu na głębokości 3 poziomów, gdzie skrócone kontenery pokazują liczbę dzieci. Następnie agent może przejść do szczegółowego analizowania konkretnego regionu zainteresowania, wykonać akcję na znalezionym elemencie i ponownie sprawdzić stan po zmianie.
Podstawowy cykl pracy agenta to: snapshot → decyzja → akcja → snapshot → decyzja → akcja. Dla prostszych aplikacji wystarczy pełny snapshot z interaktywnymi elementami i referencjami, po którym następuje bezpośrednia akcja poprzez kliknięcie, wpisywanie tekstu czy skróty klawiaturowe.
Agent Desktop oferuje szeroki zestaw komend obserwacyjnych (snapshot, screenshot, find, get, list-surfaces), interakcyjnych (click, type, select, toggle, scroll) oraz do zarządzania klawiaturą i myszą. Wszystkie interakcje priorytetowo wykorzystują API dostępności przed wykorzystaniem zdarzeń myszy, co zwiększa niezawodność automatyzacji.