2 maja 20264 min czytania

Agent Desktop — narzędzie CLI do automatyzacji aplikacji desktopowych dla agentów AI

Agent Desktop to napisane w Rust narzędzie CLI, które pozwala agentom AI automatyzować aplikacje desktopowe poprzez drzewa dostępności zamiast zrzutów ekranu.

Źródło zdjęcia: GitHub

Agent Desktop to nowe narzędzie CLI napisane w języku Rust, które umożliwia agentom AI automatyzację aplikacji desktopowych bez konieczności analizowania zrzutów ekranu czy dopasowywania pikseli. Projekt dostępny jest na GitHubie i oferuje strukturalny dostęp do dowolnych aplikacji poprzez drzewa dostępności systemu operacyjnego.

Kluczowe wnioski

Agent Desktop oferuje 53 komendy do obserwacji, interakcji, zarządzania klawiaturą, myszą, powiadomieniami i oknami.
Narzędzie wykorzystuje progresywne przechodzenie szkieletu aplikacji, co pozwala na redukcję tokenów o 78–96% w gęstych aplikacjach.
Projekt zapewnia bindingi FFI dla wielu języków programowania (Python, Swift, Go, Ruby, Node, C), eliminując potrzebę fork-exec dla każdego wywołania.
Wszystkie akcje priorytetowo używają API dostępności przed przejściem do zdarzeń myszy, zapewniając większą niezawodność.
Narzędzie działa z dowolnymi aplikacjami posiadającymi drzewo dostępności: Finder, Safari, Xcode, Slack czy System Settings.

Architektura i możliwości techniczne

Agent Desktop został zbudowany jako natywne CLI w języku Rust, oferujące szybki, pojedynczy plik binarny bez zewnętrznych zależności. Kluczową innowacją jest biblioteka C-ABI (libagent_desktop_ffi), którą można załadować raz z różnych języków programowania zamiast uruchamiania CLI dla każdego wywołania.

System wykorzystuje referencje deterministyczne elementów (@e1, @e2), które optymalizują workflow dla agentów AI. Każda odpowiedź zwracana jest w strukturalnym formacie JSON z kodami błędów i wskazówkami odzyskiwania. Narzędzie obsługuje wszystkie główne platformy — macOS (arm64, x86_64), Linux (x86_64, arm64) oraz Windows (x86_64).

Workflow dla agentów AI

Dla gęstych aplikacji jak Slack, VS Code czy Notion, agent-desktop implementuje strategię progresywnego przechodzenia szkieletu. Proces rozpoczyna się od płytkiego przeglądu na głębokości 3 poziomów, gdzie skrócone kontenery pokazują liczbę dzieci. Następnie agent może przejść do szczegółowego analizowania konkretnego regionu zainteresowania, wykonać akcję na znalezionym elemencie i ponownie sprawdzić stan po zmianie.

Podstawowy cykl pracy agenta to: snapshot → decyzja → akcja → snapshot → decyzja → akcja. Dla prostszych aplikacji wystarczy pełny snapshot z interaktywnymi elementami i referencjami, po którym następuje bezpośrednia akcja poprzez kliknięcie, wpisywanie tekstu czy skróty klawiaturowe.

Agent Desktop oferuje szeroki zestaw komend obserwacyjnych (snapshot, screenshot, find, get, list-surfaces), interakcyjnych (click, type, select, toggle, scroll) oraz do zarządzania klawiaturą i myszą. Wszystkie interakcje priorytetowo wykorzystują API dostępności przed wykorzystaniem zdarzeń myszy, co zwiększa niezawodność automatyzacji.

#desktop #automatyzacja #agenci AI #Rust #CLI

Udostępnij

Źródła

Hacker News AI

Poprzedni

AI CAD Harness: nowe rozszerzenie AI dla Fusion 360

Następny

xAI wprowadza klonowanie głosu z minutowego nagrania

Podobne Publikacje

Modele AI

MolmoMotion: Model AI przewiduje ruch obiektów 3D na podstawie instrukcji tekstowych

Allen Institute for AI opublikował MolmoMotion — model prognozujący trajektorie ruchu 3D obiektów sterowany językiem naturalnym, wraz z największym zbiorem danych 1,16M filmów.

4 min17 czerwca

Etyka i Bezpieczeństwo

Eksperci cyberbezpieczeństwa protestują przeciwko zakazowi USA na modele Anthropic

76 ekspertów cyberbezpieczeństwa wzywa rząd USA do zniesienia zakazu na modele Fable i Mythos, twierdząc że osłabia to obronę przed cyberatakami.

4 min15 czerwca

Etyka i Bezpieczeństwo

AI znalazła słaby punkt Rosji. Ukraińskie drony atakują ciężarówki z paliwem

Ukraina wykorzystuje drony z AI do systematycznego niszczenia rosyjskich transportów paliwa. Strategia uderza w logistykę zamiast czołgi.

4 min14 czerwca

2 maja 20264 min czytania

Agent Desktop — narzędzie CLI do automatyzacji aplikacji desktopowych dla agentów AI

Agent Desktop to napisane w Rust narzędzie CLI, które pozwala agentom AI automatyzować aplikacje desktopowe poprzez drzewa dostępności zamiast zrzutów ekranu.

Źródło zdjęcia: GitHub

Kluczowe wnioski

Agent Desktop oferuje 53 komendy do obserwacji, interakcji, zarządzania klawiaturą, myszą, powiadomieniami i oknami.
Narzędzie wykorzystuje progresywne przechodzenie szkieletu aplikacji, co pozwala na redukcję tokenów o 78–96% w gęstych aplikacjach.
Projekt zapewnia bindingi FFI dla wielu języków programowania (Python, Swift, Go, Ruby, Node, C), eliminując potrzebę fork-exec dla każdego wywołania.
Wszystkie akcje priorytetowo używają API dostępności przed przejściem do zdarzeń myszy, zapewniając większą niezawodność.
Narzędzie działa z dowolnymi aplikacjami posiadającymi drzewo dostępności: Finder, Safari, Xcode, Slack czy System Settings.

Architektura i możliwości techniczne

Workflow dla agentów AI

#desktop #automatyzacja #agenci AI #Rust #CLI

Udostępnij

Źródła

Hacker News AI

Poprzedni

AI CAD Harness: nowe rozszerzenie AI dla Fusion 360

Następny

xAI wprowadza klonowanie głosu z minutowego nagrania

Podobne Publikacje

Modele AI

MolmoMotion: Model AI przewiduje ruch obiektów 3D na podstawie instrukcji tekstowych

Allen Institute for AI opublikował MolmoMotion — model prognozujący trajektorie ruchu 3D obiektów sterowany językiem naturalnym, wraz z największym zbiorem danych 1,16M filmów.

4 min17 czerwca

Etyka i Bezpieczeństwo

Eksperci cyberbezpieczeństwa protestują przeciwko zakazowi USA na modele Anthropic

76 ekspertów cyberbezpieczeństwa wzywa rząd USA do zniesienia zakazu na modele Fable i Mythos, twierdząc że osłabia to obronę przed cyberatakami.

4 min15 czerwca

Etyka i Bezpieczeństwo

AI znalazła słaby punkt Rosji. Ukraińskie drony atakują ciężarówki z paliwem

Ukraina wykorzystuje drony z AI do systematycznego niszczenia rosyjskich transportów paliwa. Strategia uderza w logistykę zamiast czołgi.

4 min14 czerwca