Badacze opracowali RETD — algorytm eliminujący niestabilność w uczeniu temporalnych różnic przy zachowaniu korzystnej geometrii emfatycznej.

Źródło zdjęcia: arXiv.org
Międzynarodowy zespół badaczy z Xingguo Chen na czele opublikował nową metodę uczenia maszynowego o nazwie RETD (Regularized Emphatic Temporal-Difference Learning), która rozwiązuje kluczowy problem w algorytmach off-policy uczenia ze wzmocnieniem. Badanie zostało opublikowane na platformie arXiv w maju 2026 roku.
Nowa metoda adresuje strukturalny kompromis między stabilnością, geometrią projekcji i kontrolą wariancji w uczeniu temporalnych różnic (TD) z aproksymacją funkcji. Problem ten dotyka fundamentów nowoczesnych systemów sztucznej inteligencji wykorzystujących uczenie ze wzmocnieniem.
Emphatic TD (ETD) poprawia geometrię projekcji off-policy poprzez nacisk typu follow-on, jednak ślad follow-on może charakteryzować się wysoką wariancją. Zespół badawczy ponownie przeanalizował ten kompromis przez pryzmat centrowania błędu Bellmana.
Chociaż centrowanie naturalnie usuwa wspólny składnik dryfu z błędów TD, naukowcy wykazali, że naiwne centrowane rozszerzenie emfatyczne wprowadza pomocnicze sprzężenie, które może zniszczyć pozytywną określoność kluczowej macierzy ETD. To odkrycie stanowi podstawę dla opracowania metody RETD.
Autorzy wyprowadzili macierz rdzeniową RETD i udowodnili zbieżność przy konserwatywnym warunku wystarczającej regularyzacji. Metoda została oceniona na diagnostycznych liniowych zadaniach predykcji off-policy, które stanowią standardowy benchmark w tej dziedzinie.
Eksperymenty pokazały, że RETD skutecznie unika niestabilności charakterystycznej dla naiwnego centrowanego uczenia emfatycznego. Jednocześnie zachowuje korzystną geometrię emfatyczną i wykazuje robustny pośredni reżim dla parametru regularyzacji c we wszystkich przeprowadzonych diagnostykach.
Badanie reprezentuje znaczący postęp w rozumieniu i implementacji algorytmów uczenia ze wzmocnieniem off-policy, oferując praktyczne rozwiązanie długotrwałego problemu w tej dziedzinie sztucznej inteligencji.

Anthropic wprowadza Claude Tag — AI-członka zespołu w Slacku z trwałą pamięcią, który uczy się kontekstu organizacyjnego i proaktywnie uczestniczy w pracy.

Free Software Foundation Europe domaga się od KE działań przeciwko Google za przymusową instalację AI Gemini i automatyczne przywracanie modeli po usunięciu.

Cerebras Systems odnotował 94% wzrost przychodów, ale prognozy marż brutto spowodowały spadek akcji o niemal 20%. CEO tłumaczy strategię.