10 maja 20264 min czytania

OpenAI przedstawia bezpieczne wdrażanie agentów kodujących Codex

Firma dzieli się praktycznymi rozwiązaniami kontroli, sandboxingu i telemetrii dla bezpiecznego wykorzystania autonomicznych systemów programist

Poprzedni

Wszyscy moi klienci chcieli karuzeli, teraz chcą chatbota AI

Następny

Academic Research Skills dla Claude — kompleksowy system wspomagania prac naukowych

Podobne Publikacje

Badania i Nauka

GraphDC: Nowa architektura AI znacząco poprawia rozumowanie nad algorytmami grafowymi

Naukowcy opracowali GraphDC — wieloagentowy system wykorzystujący strategię 'dziel i zwyciężaj' do skuteczniejszego rozwiązywania problemów grafowych.

3 min11 maja

Etyka i Bezpieczeństwo

Kalifornia może wprowadzić pierwszą gwarancję zatrudnienia dla pracowników zastąpionych przez AI

Tom Steyer proponuje rewolucyjny plan finansowany podatkiem od firm technologicznych, który ma chronić pracowników przed skutkami automatyzacji AI.

Kluczowe wnioski

OpenAI wdraża Codex z trzema głównymi celami: utrzymanie agenta w określonych granicach technicznych, umożliwienie szybkiego działania przy działaniach o niskim ryzyku oraz wymaganie jawnej zgody na działania wysokiego ryzyka.

System wykorzystuje kombinację sandboxingu i zatwierdzeń, gdzie sandbox definiuje granice wykonywania, a polityka zatwierdzania określa, kiedy Codex musi poprosić o pozwolenie na wykonanie działania.

Tryb Auto-review automatycznie zatwierdza rutynowe działania o niskim ryzyku, redukując liczbę przerwań dla użytkownika przy jednoczesnym zachowaniu kontroli nad działaniami wysokiego ryzyka.

Firma stosuje zarządzane polityki sieciowe, blokując niepożądane destynacje i wymagając zatwierdzenia dla nieznanych domen, zamiast dawać Codex nieograniczony dostęp do sieci.

Telemetria natywna dla agentów zapewnia wgląd nie tylko w to, co agent zrobił, ale także dlaczego podjął dane działania, co jest kluczowe dla audytu i bezpieczeństwa.

Architektura kontroli i bezpieczeństwa

OpenAI opracowało system kontroli oparty na zasadzie, że Codex powinien być produktywny w ograniczonym środowisku, gdzie rutynowe działania są bezproblemowe, a działania wysokiego ryzyka wymagają przeglądu.

Sandboxing i zatwierdzenia działają symbiotycznie. Sandbox określa techniczne granice wykonywania, w tym gdzie Codex może zapisywać pliki, czy ma dostęp do sieci i które ścieżki pozostają chronione. Polityka zatwierdzania decyduje, kiedy agent musi poprosić o pozwolenie, na przykład gdy potrzebuje wykonać działanie poza sandboxem.

Firma wprowadza tryb Auto-review dla rutynowych żądań zatwierdzenia. Ta funkcja automatycznie zatwierdza określone typy żądań, redukując częstotliwość przerywania pracy użytkownika. Codex wysyła planowane działanie i najnowszy kontekst do podagenta auto-zatwierdzania, który może automatycznie zatwierdzić działania o niskim ryzyku.

Zarządzanie dostępem i siecią

OpenAI nie uruchamia Codex z nieograniczonym dostępem wychodzącym. Zarządzana polityka sieciowa pozwala na oczekiwane destynacje, blokuje niepożądane miejsca docelowe i wymaga zatwierdzenia dla nieznanych domen. Takie podejście umożliwia Codex ukończenie typowych, sprawdzonych przepływów pracy bez udzielania mu szerokiego dostępu do sieci.

System zarządza również sposobem uwierzytelniania Codex. Poświadczenia CLI i MCP OAuth są przechowywane w bezpiecznej pięści kluczy systemu operacyjnego, logowanie jest wymuszane przez ChatGPT, a dostęp jest przypięty do korporacyjnego obszaru roboczego ChatGPT firmy. To rozwiązanie wiąże użycie Codex z kontrolami na poziomie obszaru roboczego i udostępnia aktywność Codex w platformie logów zgodności ChatGPT.

Telemetria i ślady audytowe

Kontrola to tylko połowa zadania. Po wdrożeniu agentów zespoły bezpieczeństwa potrzebują wglądu w to, co robią i dlaczego. Tradycyjne logi bezpieczeństwa nadal są przydatne przy analizowaniu działań podjętych przez Codex, ale głównie odpowiadają na pytanie „co się stało”: proces się rozpoczął, plik się zmienił, podjęto próbę połączenia sieciowego.

Codex może zapewnić zespołom bezpieczeństwa bardziej świadomy agentów widok sytuacji. System obsługuje OpenTelemetry do strukturalnego logowania działań agenta, zapewniając kontekst dotyczący intencji użytkownika i decyzji agenta. Ta telemetria natywna dla agentów pozwala audytorom zrozumieć nie tylko co agent zrobił, ale także dlaczego podjął dane działania.

OpenAI demonstruje, że odpowiedzialne wdrażanie agentów AI wymaga przemyślanej architektury kontroli, która równoważy produktywność z bezpieczeństwem, zapewniając jednocześnie pełną widoczność działań systemu.