Słownik AI

Regularyzacja – ang. Regularization

Regularyzacja w AI – definicja, działanie, zastosowania

Czym jest Regularyzacja?

Regularyzacja to zbiór technik matematycznych wprowadzanych do procesu uczenia modeli sztucznej inteligencji w celu ograniczenia nadmiernego dopasowania do danych treningowych. Polega na dodaniu do funkcji kosztu dodatkowego składnika, który penalizuje zbyt dużą złożoność modelu. Dzięki temu parametry przyjmują mniejsze wartości, co sprzyja lepszemu uogólnieniu na nieznane przykłady.

Jak dokładnie działa Regularyzacja?

Najczęściej stosuje się odmiany regularyzacji L2 (kary w postaci sumy kwadratów wag, popularnie zwanej Ridge) oraz L1 (suma modułów wag, znana jako Lasso). W praktyce modyfikuje się funkcję straty, dodając do niej współczynnik λ pomnożony przez wybraną normę wag. Optymalizator minimalizuje więc połączenie błędu predykcji i kary za złożoność, co prowadzi do bardziej zwartch reprezentacji. W sieciach neuronowych spotyka się także dropout, czyli losowe wyłączanie części neuronów w trakcie uczenia, co pełni funkcję regularyzującą przez wymuszanie redundantnych reprezentacji.

Regularyzacja L1 i L2

L2 łagodnie ogranicza wielkość wszystkich wag, natomiast L1 sprzyja ich wyzerowaniu, tworząc modele rzadkie. Wybór techniki zależy od charakterystyki danych: L1 jest ceniona przy wysokiej liczbie cech i potrzebie selekcji, L2 bywa stabilniejsza, gdy cechy są silnie skorelowane.

Zastosowania w praktyce

Regularyzacja występuje w niemal każdym etapie projektowania modeli uczenia maszynowego. Klasyczny regresor logistyczny z karą L2 pozwala przewidywać ryzyko kredytowe, zachowując przy tym interpretowalność współczynników. W głębokich sieciach konwolucyjnych stosuje się jednocześnie dropout, weight decay oraz normalizację wag, aby poprawić skuteczność rozpoznawania obrazów przy ograniczonej liczbie próbek.

Zalety i ograniczenia

Do głównych korzyści zalicza się większą odporność na szum, poprawione uogólnienie oraz mniejszą wariancję wyników. Należy jednak pamiętać, że zbyt wysoka kara prowadzi do niedouczenia, a sam dobór hyperparametru λ wymaga starannej walidacji, często z użyciem przekrojów krzyżowych.

Na co uważać?

Nadmierne zastosowanie regularyzacji może ukryć informację użyteczną, zwłaszcza w danych o niskim stosunku sygnału do szumu. Warto monitorować zarówno błąd treningowy, jak i walidacyjny, aby dobrze wyczuć punkt równowagi między uproszczeniem a dokładnością.

Kontekst historyczny

Początki regularyzacji sięgają metody Tichonowa (1963), rozwiniętej w kontekście rozwiązywania zadań odwrotnych. W statystyce termin ridge regression został spopularyzowany przez Hoerla i Kennarda w 1970 r., a Lasso zaproponował Robert Tibshirani w 1996 r. W uczeniu głębokim ogromny wpływ miała koncepcja dropout przedstawiona przez Geoffreya Hintona i współpracowników w 2012 r.

Dodatkowe źródła

Szersze ujęcie teoretyczne znajduje się na stronie Wikipedii. Klasyczną pracę o Lasso można przejrzeć w The Annals of Statistics, natomiast oryginalny artykuł o dropout dostępny jest w serwisie arXiv.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *