Słownik AI

Uczenie przez wzmocnienie – ang. Reinforcement Learning, RL

Uczenie przez wzmocnienie (RL) – definicja i zastosowania

Czym jest Uczenie przez wzmocnienie (reinforcement learning, RL)?

Uczenie przez wzmocnienie, w skrócie RL, stanowi nurt uczenia maszynowego, w którym algorytm uczy się poprzez interakcję z otoczeniem. Model zwany agentem wybiera akcje, obserwuje rezultat w postaci nowego stanu środowiska i otrzymuje sygnał nagrody, co pozwala sukcesywnie doskonalić strategię działania. Celem jest maksymalizacja skumulowanej wartości nagród, a więc wypracowanie polityki postępowania, która w długim horyzoncie okaże się najkorzystniejsza.

Jak dokładnie działa Uczenie przez wzmocnienie (reinforcement learning, RL)

Proces uczenia przebiega w pętli agent–środowisko. W każdym kroku czasowym agent obserwuje stan, wybiera akcję na podstawie bieżącej polityki i otrzymuje nagrodę. Funkcja wartości, estymowana metodami dynamicznymi lub za pomocą sieci neuronowych, pomaga ocenić przyszłe korzyści wynikające z danej decyzji. Popularne algorytmy, takie jak Q-Learning, SARSA czy metody policy gradient, różnią się sposobem aktualizacji wartości i polityki, lecz wszystkie polegają na stopniowym poprawianiu parametrów na skutek otrzymywanych wzmocnień.

Kontekst historyczny

Początki RL sięgają badań psychologów nad warunkowaniem instrumentalnym prowadzonych w latach 40. XX w. przez B. F. Skinnera. Na gruncie informatyki pierwsze formalne modele Markowskich procesów decyzyjnych opracowali Ronald Howard i Richard Bellman w latach 50. Termin „reinforcement learning” spopularyzowali natomiast Andrew Barto i Richard Sutton, którzy od lat 80. rozwijają tę dziedzinę na University of Massachusetts Amherst i University of Alberta. Ich podręcznik „Reinforcement Learning: An Introduction” z 1998 r. (aktualizowany w 2018 r.) do dziś pozostaje podstawowym kompendium.

Zastosowania w praktyce

Uczenie przez wzmocnienie znajduje zastosowanie wszędzie tam, gdzie decyzje następują w sekwencjach i wpływają na siebie. Systemy rekomendacji optymalizują kolejność treści, robotyka wykorzystuje RL do nauki złożonych manipulacji, a pojazdy autonomiczne doskonalą strategie jazdy. Najgłośniejszym przykładem pozostaje program AlphaGo opracowany w 2016 r. przez zespół DeepMind, który pokonał mistrza świata w Go, łącząc wyszukiwanie Monte Carlo z RL.

Zalety i ograniczenia

RL ułatwia optymalizację długoterminowych celów i sprawdza się w środowiskach, gdzie nie istnieją gotowe zestawy danych. Potrafi adaptować się do zmian otoczenia i uczyć z własnego doświadczenia. Wadą jest wysoki koszt eksploracji: tysiące prób mogą być nieakceptowalne w systemach fizycznych. Trudności sprawia też stabilność uczenia, szczególnie przy wykorzystaniu funkcji aproksymujących, co wymaga starannego doboru parametrów i mechanizmów regularyzacji.

Na co uważać?

Nadmierna eksploracja może prowadzić do niebezpiecznych zachowań w systemach realnego czasu, dlatego stosuje się symulacje lub metody off-policy. Projektant powinien upewnić się, że funkcja nagrody odzwierciedla rzeczywiste cele, w przeciwnym razie agent może optymalizować zachowania niezgodne z intencją twórcy. Istotne jest też monitorowanie procesu uczenia, by w porę wykryć dryf polityki lub zjawisko katastroficznego zapominania.

Dodatkowe źródła

Więcej informacji można znaleźć w podręczniku Sutton & Barto – Reinforcement Learning: An Introduction, na stronie Wikipedii poświęconej RL oraz w przeglądowej publikacji arXiv:2009.01327, która podsumowuje najnowsze osiągnięcia.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *