Czym jest Motywacja wewnętrzna (intrinsic motivation)?
Motywacja wewnętrzna w kontekście sztucznej inteligencji opisuje klasę metod, w której agent uczy się, kierując się wewnętrznie generowanym sygnałem nagrody. Zamiast polegać wyłącznie na zewnętrznych celach narzuconych przez programistę, algorytm konstruuje własne kryteria ciekawości, eksploracji lub samodoskonalenia. W ten sposób naśladuje mechanizmy obserwowane w psychologii człowieka i zwierząt, gdzie działanie jest podejmowane dla samego procesu poznawczego lub satysfakcji z wykonania zadania.
Jak dokładnie działa Motywacja wewnętrzna (intrinsic motivation)
Technicznie rzecz biorąc, agent oblicza tzw. wewnętrzną wartość stanu lub działania, często związaną z niepewnością modelu, rzadkością zdarzenia albo przyrostem informacji. Gdy agent napotyka szczególnie nieprzewidywalne lub nowe sytuacje, otrzymuje wysoki sygnał nagrody wewnętrznej, co zachęca go do dalszej eksploracji tej części przestrzeni stanów. Dzięki temu możliwe jest skuteczniejsze uczenie w środowiskach z rzadkimi lub opóźnionymi nagrodami zewnętrznymi.
Kontekst historyczny i rozwój koncepcji
Pierwsze formalne modele pojawiły się w latach 90., kiedy Jürgen Schmidhuber zaproponował ideę „ciekawości” jako miary przyrostu kompresowalnej informacji. W kolejnej dekadzie Richard Sutton i Andrew Barto rozwinęli algorytmy uczenia ze wzmocnieniem o elementy wewnętrznej nagrody, zwłaszcza w pracach prowadzonych na Uniwersytecie Alberty. W ostatnich latach zespoły badawcze OpenAI, DeepMind oraz instytuty akademickie wprowadziły metody oparte na predykcji błędu rekonstrukcji, entropii polityki czy dynamicznej estymacji rzadkości stanów.
Zastosowania w praktyce
Silnie złożone środowiska, w których agent znajduje cele samodzielnie, stanowią naturalne pole do użycia motywacji wewnętrznej. Przykładem jest uczenie robotów manipulacji obiektami o zmiennej dynamice: zamiast programować każdą możliwą trajektorię, system otrzymuje nagrodę wewnętrzną za odkrywanie stabilnych chwytów i nowych konfiguracji. W grach wideo, takich jak Montezuma’s Revenge, algorytmy korzystające z ciekawości potrafią znaleźć ukryte pomieszczenia, mimo braku wcześniejszej wiedzy o ich istnieniu.
Zalety i ograniczenia
Największą zaletą jest zdolność do samodzielnego odkrywania zadań pomocniczych, co przyspiesza uczenie w środowiskach o skąpym sprzężeniu zwrotnym. Pozwala to ograniczyć interwencję człowieka i zmniejszyć zapotrzebowanie na ręcznie etykietowane dane. Warto jednak pamiętać, że źle zaprojektowany sygnał wewnętrzny może prowadzić do tzw. pułapki ciekawości, w której agent koncentruje się na nowych, lecz nieużytecznych stanach. W wielu zastosowaniach konieczna jest zatem równowaga pomiędzy nagrodami wewnętrznymi a zewnętrznymi.
Na co uważać?
Projektując systemy oparte na motywacji wewnętrznej, należy zwrócić uwagę na stabilność uczenia i bezpieczeństwo eksploracji. Zbyt agresywne promowanie niepewnych stanów może prowadzić do nieodwracalnych błędów, zwłaszcza w robotyce fizycznej. Istotne jest także monitorowanie przewagi eksploracji nad eksploatacją, aby agent nie ignorował osiągalnych celów zewnętrznych.
Dodatkowe źródła
Dla pogłębienia wiedzy warto sięgnąć po klasyczne opracowania psychologiczne, publikacje z obszaru uczenia ze wzmocnieniem i repozytoria kodu open-source. Dobrym punktem wyjścia jest artykuł przeglądowy Intrinsic Motivation and Exploration in Reinforcement Learning, a także hasło Motywacja wewnętrzna w Wikipedii. Implementacje przykładowych algorytmów można znaleźć w bibliotece OpenAI Gym.


