Słownik AI

Proksymalna optymalizacja polityki – ang. Proximal Policy Optimization, PPO

Proksymalna optymalizacja polityki (PPO) – definicja

Czym jest Proksymalna optymalizacja polityki (proximal policy optimization, PPO)?

PPO to metoda uczenia ze wzmocnieniem oparta na gradiencie polityki, zaproponowana w 2017 r. przez zespół OpenAI kierowany przez Johna Schulmana. Technika ta udoskonala poprzednie podejścia – w szczególności Trust Region Policy Optimization (TRPO) – upraszczając implementację i obniżając wymagania obliczeniowe przy zachowaniu stabilności procesu treningowego.

Jak dokładnie działa Proksymalna optymalizacja polityki (proximal policy optimization, PPO)

Rdzeniem PPO jest funkcja celu, która porównuje stosunek prawdopodobieństw nowej i starej polityki dla tych samych działań. Jeżeli ten stosunek wychodzi poza ustalony przedział, tak zwany clip, gradient jest ograniczany, co zapobiega zbyt dużym skokom parametrów. W praktyce algorytm dokonuje wielu kroków aktualizacji na tym samym zestawie próbek dzięki wykorzystywaniu przewagi (advantage) obliczanej przy pomocy estymatora GAE. Regularyzacja entropią dodatkowo zachęca politykę do eksploracji, a równoczesne uczenie krytyka pomaga w redukcji wariancji.

Subtelne porównanie z klasycznymi rozwiązaniami

W przeciwieństwie do REINFORCE PPO wykorzystuje wartości stanów, co obniża wariancję, a jednocześnie eliminuje kosztowny krok rozwiązywania problemu optymalizacji w ograniczonym regionie, znany z TRPO. Dzięki temu może być stosowany w środowiskach o wysokiej wymiarowości, nawet przy ograniczonych zasobach sprzętowych.

Kontekst historyczny

Pierwsza publikacja opisująca PPO ukazała się w czerwcu 2017 r. na platformie arXiv. Autorami byli m.in. John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford oraz Oleg Klimov. Od tego czasu metoda stała się domyślnym wyborem w bibliotekach takich jak Stable Baselines, RLLib czy TensorFlow Agents.

Zastosowania w praktyce

PPO znajduje zastosowanie w szerokiej gamie problemów: od sterowania robotami w czasie rzeczywistym, przez stabilizację dronów, po optymalizację strategii w grach wideo. Przykładowo, firma OpenAI wykorzystała PPO do trenowania agentów sterujących kapsułą kosmiczną w symulacji LunarLander, uzyskując wyraźnie szybszą konwergencję niż przy użyciu DQN.

Zalety i ograniczenia

Za największą zaletę PPO uchodzi stabilność procesu uczenia przy relatywnie prostym kodzie. Algorytm radzi sobie z gradientami o wysokiej wariancji i nie wymaga skomplikowanej procedury obliczania ograniczeń jak TRPO. Minusem pozostaje konieczność doboru współczynnika klipu oraz fakt, że nadal wymaga dużych ilości danych z symulatora, co w zadaniach ze światem rzeczywistym może być kosztowne.

Na co uważać?

Nadmiernie agresywne wartości klipu potrafią blokować poprawne uczenie, podczas gdy zbyt małe prowadzą do niestabilności. Warto także monitorować zmienność entropii ­– jej zbyt szybki spadek bywa sygnałem, że agent przedwcześnie eksploatuje jedną strategię. Jeżeli środowisko jest częściowo obserwowalne, lepsze wyniki daje wersja PPO z rekurencyjną siecią polityki.

Dodatkowe źródła

Pełny opis algorytmu można znaleźć w oryginalnym artykule Proximal Policy Optimization Algorithms. Kompendium implementacyjne zawiera Stable Baselines – dokumentacja PPO. Wprowadzenie w języku polskim dostępne jest również na Wikipedii.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *