7 maja 20263 min czytania

Nowa metoda RETD rozwiązuje kluczowy problem w uczeniu ze wzmocnieniem off-policy

Badacze opracowali RETD — algorytm eliminujący niestabilność w uczeniu temporalnych różnic przy zachowaniu korzystnej geometrii emfatycznej.

Źródło zdjęcia: arXiv.org

Międzynarodowy zespół badaczy z Xingguo Chen na czele opublikował nową metodę uczenia maszynowego o nazwie RETD (Regularized Emphatic Temporal-Difference Learning), która rozwiązuje kluczowy problem w algorytmach off-policy uczenia ze wzmocnieniem. Badanie zostało opublikowane na platformie arXiv w maju 2026 roku.

Nowa metoda adresuje strukturalny kompromis między stabilnością, geometrią projekcji i kontrolą wariancji w uczeniu temporalnych różnic (TD) z aproksymacją funkcji. Problem ten dotyka fundamentów nowoczesnych systemów sztucznej inteligencji wykorzystujących uczenie ze wzmocnieniem.

Kluczowe wnioski

RETD rozwiązuje problem niestabilności w naiwnym podejściu do centrowanego uczenia emfatycznego, które mogło niszczyć pozytywną określoność kluczowej macierzy ETD.
Metoda wprowadza regularyzację tylko dla pomocniczej rekurencji centrującej, co odpowiada podniesieniu prawego dolnego bloku sprzężonej macierzy kluczowej z 1 do 1+c.
Badacze udowodnili zbieżność algorytmu przy konserwatywnym warunku wystarczającej regularyzacji i przetestowali metodę na diagnostycznych zadaniach liniowej predykcji off-policy.
Eksperymenty wykazały, że RETD unika niestabilności naiwnego centrowanego uczenia emfatycznego przy jednoczesnym zachowaniu korzystnej geometrii emfatycznej.
Metoda wykazuje robustny pośredni reżim dla parametru regularyzacji c we wszystkich testach diagnostycznych.

Przełom w uczeniu temporalnych różnic

Emphatic TD (ETD) poprawia geometrię projekcji off-policy poprzez nacisk typu follow-on, jednak ślad follow-on może charakteryzować się wysoką wariancją. Zespół badawczy ponownie przeanalizował ten kompromis przez pryzmat centrowania błędu Bellmana.

Chociaż centrowanie naturalnie usuwa wspólny składnik dryfu z błędów TD, naukowcy wykazali, że naiwne centrowane rozszerzenie emfatyczne wprowadza pomocnicze sprzężenie, które może zniszczyć pozytywną określoność kluczowej macierzy ETD. To odkrycie stanowi podstawę dla opracowania metody RETD.

Metodologia i wyniki eksperymentów

Autorzy wyprowadzili macierz rdzeniową RETD i udowodnili zbieżność przy konserwatywnym warunku wystarczającej regularyzacji. Metoda została oceniona na diagnostycznych liniowych zadaniach predykcji off-policy, które stanowią standardowy benchmark w tej dziedzinie.

Eksperymenty pokazały, że RETD skutecznie unika niestabilności charakterystycznej dla naiwnego centrowanego uczenia emfatycznego. Jednocześnie zachowuje korzystną geometrię emfatyczną i wykazuje robustny pośredni reżim dla parametru regularyzacji c we wszystkich przeprowadzonych diagnostykach.

Badanie reprezentuje znaczący postęp w rozumieniu i implementacji algorytmów uczenia ze wzmocnieniem off-policy, oferując praktyczne rozwiązanie długotrwałego problemu w tej dziedzinie sztucznej inteligencji.

#algorytmy off-policy #uczenie maszynowe #uczenie ze wzmocnieniem #temporal-difference #RETD

Udostępnij

Źródła

arXiv AI

Poprzedni

OpenAI z gigantami tech opracowało protokół MRC do usuwania wąskich gardeł w superkomputerach AI

Następny

Przełomowy system AI analizuje komunikację zespołów chirurgicznych w czasie rzeczywistym

Podobne Publikacje

Narzędzia i Aplikacje

Claude Tag od Anthropic uczy się Twojej firmy analizując każdą wiadomość w Slacku

Anthropic wprowadza Claude Tag — AI-członka zespołu w Slacku z trwałą pamięcią, który uczy się kontekstu organizacyjnego i proaktywnie uczestniczy w pracy.

3 min23 czerwca

Etyka i Bezpieczeństwo

Google wpycha siłą Gemini na telefony. FSFE składa skargę do Komisji Europejskiej

Free Software Foundation Europe domaga się od KE działań przeciwko Google za przymusową instalację AI Gemini i automatyczne przywracanie modeli po usunięciu.

4 min23 czerwca

Biznes i Rynek

Akcje Cerebras spadają o 20% mimo dobrych wyników — CEO wyjaśnia sprawę marż

Cerebras Systems odnotował 94% wzrost przychodów, ale prognozy marż brutto spowodowały spadek akcji o niemal 20%. CEO tłumaczy strategię.

3 min25 czerwca