Marcin Andrychowicz: reinforcement learning, robotyka i uczenie przez cele

Marcin Andrychowicz jest ważny dla AI jako badacz, którego prace dobrze pokazują starszy, ale nadal istotny nurt rozwoju sztucznej inteligencji: reinforcement learning, robotykę i uczenie agentów przez cele. Jego nazwisko najczęściej wraca przy Hindsight Experience Replay, metodzie, która pomogła pokazać, jak system może uczyć się także z nieudanych prób.

To nie jest historia o ChatGPT ani o medialnej twarzy OpenAI. To historia o badaniach, które poprzedzały obecną falę modeli językowych i wciąż mają znaczenie, gdy mówimy o agentach AI, automatyzacji i systemach zdolnych do działania w świecie, a nie tylko do generowania tekstu.

Spis treści

Dlaczego Marcin Andrychowicz jest ważny dla AI?

Andrychowicz jest ważny, bo jego praca dotyka jednego z kluczowych problemów uczenia przez wzmacnianie: co zrobić, gdy agent przez długi czas nie dostaje pozytywnej nagrody. W robotyce to sytuacja typowa. Ramię robota może setki razy nie trafić w cel, przesunąć obiekt za mało albo wykonać ruch nie tak, jak trzeba. Klasyczne podejście łatwo marnuje takie próby, bo traktuje je jako porażki bez użytecznej informacji.

Hindsight Experience Replay zaproponowało inne spojrzenie: jeśli agent nie osiągnął planowanego celu, można po fakcie potraktować to, co faktycznie osiągnął, jako alternatywny cel treningowy. W uproszczeniu model uczy się z porażki, bo porażka wobec jednego celu może być sukcesem wobec innego. Ta intuicja okazała się bardzo wpływowa w badaniach nad zadaniami z rzadkimi nagrodami.

Kim jest?

Marcin Andrychowicz jest polskim badaczem uczenia maszynowego, znanym przede wszystkim z pracy przy OpenAI nad reinforcement learningiem i robotyką. W pracy Hindsight Experience Replay z 2017 roku występuje jako pierwszy autor, a pełniejszy kontekst zespołowy obejmuje także Filipa Wolskiego, Alexa Raya, Jonasa Schneidera, Rachel Fong, Petera Welindera, Boba McGrew, Josha Tobina, Pietera Abbeela i Wojciecha Zarembę.

Jego profil pokazuje ważną część polskiego wkładu w AI: nie tylko modele językowe, ale też badania nad agentami, celami, manipulacją robotyczną i uczeniem w środowiskach, gdzie dobry wynik nie pojawia się po każdym kroku.

Konkretny wkład w rozwój AI

Najbardziej konkretnym wkładem jest Hindsight Experience Replay, zaprezentowane przez OpenAI w 2017 roku i opublikowane w NeurIPS. Metoda była testowana na zadaniach robotycznych takich jak pushing, sliding i pick-and-place. Ważne było to, że system uczył się przy rzadkich, binarnych nagrodach, czyli w warunkach bardziej realistycznych niż starannie zaprojektowane sygnały nagrody dla każdego drobnego postępu.

W praktyce HER stało się jednym z rozpoznawalnych przykładów goal-conditioned reinforcement learning. Nie rozwiązało całej robotyki, ale pokazało elegancki sposób na problem, który ograniczał wiele eksperymentów: agent nie musi dostawać idealnej instrukcji zwrotnej za każdy ruch, żeby wyciągać informacje z doświadczenia.

Najważniejsze projekty, decyzje lub idee

Hindsight Experience Replay: metoda pozwalająca uczyć się z prób, które nie osiągnęły pierwotnego celu, ale osiągnęły jakiś inny stan.
Robotyka OpenAI: eksperymenty z manipulacją obiektami, które łączyły symulacje, uczenie przez wzmacnianie i fizyczne roboty.
Uczenie przy rzadkich nagrodach: problem kluczowy dla agentów, które mają działać w bardziej złożonych środowiskach niż benchmark tekstowy.
Goal-conditioned RL: podejście, w którym agent uczy się względem celów, a nie tylko jednej sztywnej funkcji nagrody.

Kontrowersje, ograniczenia i ryzyka

Najważniejsze ograniczenie jest takie, że robotyka nie stała się głównym produktem OpenAI. Firma z czasem przesunęła uwagę w stronę modeli językowych i generatywnych, a wiele eksperymentów robotycznych pozostało przede wszystkim dorobkiem badawczym. To nie unieważnia pracy Andrychowicza, ale pokazuje, że dobry pomysł naukowy nie zawsze natychmiast przekłada się na masowy produkt.

Druga kwestia dotyczy samego reinforcement learningu. Metody RL bywają kosztowne, niestabilne i wrażliwe na szczegóły środowiska. W robotyce dochodzi jeszcze różnica między symulacją a prawdziwym światem. Dlatego HER warto traktować jako ważny element większej układanki, a nie samodzielne rozwiązanie problemu inteligentnych robotów.

Co to oznacza dla użytkowników i firm?

Dla użytkowników wpływ takich badań jest mniej bezpośredni niż w przypadku ChatGPT, ale może być długofalowo bardzo ważny. Jeśli AI ma wykonywać zadania, sterować procesami, uczyć się z rezultatów i poprawiać działanie w czasie, potrzebuje mechanizmów podobnych do tych, które rozwijano w reinforcement learningu. Agent AI w firmie nie jest robotycznym ramieniem, ale też musi radzić sobie z celami, błędami i informacją zwrotną.

Dla biznesu lekcja z HER brzmi praktycznie: nie każda nieudana próba jest bezużyteczna. Systemy automatyzacji powinny być projektowane tak, aby zbierały informacje z wyników, porażek i częściowych sukcesów. To podejście będzie ważne w obsłudze klienta, logistyce, programowaniu, testowaniu i wszędzie tam, gdzie AI ma wykonywać sekwencje działań.

Dlaczego warto obserwować go dalej?

Andrychowicza warto obserwować przez pryzmat powrotu agentów. Po latach dominacji chatbotów rynek znów coraz mocniej pyta o AI, która potrafi wykonać zadanie, a nie tylko je opisać. Doświadczenie z goal-conditioned RL, robotyką i uczeniem z rzadkiej informacji zwrotnej może być ważnym zapleczem dla kolejnej fali systemów autonomicznych.

To część serii Ludzie, którzy kształtują AI, w której opisujemy osoby realnie wpływające na rozwój sztucznej inteligencji.