Czym jest Współczynnik uczenia (Learning rate)?
Współczynnik uczenia, oznaczany najczęściej grecką literą η lub skrótem LR, określa, jak dużym krokiem algorytm optymalizacji modyfikuje wagi modelu podczas uczenia. W praktyce jest to dodatnia liczba zmniejszająca bądź zwiększająca intensywność aktualizacji gradientowej. Odpowiednio dobrana wartość przyspiesza dojście do minimum funkcji kosztu, natomiast zbyt duża destabilizuje proces, a zbyt mała prowadzi do powolnej konwergencji.
Jak dokładnie działa Współczynnik uczenia?
Podczas każdej iteracji algorytm, taki jak klasyczny spadek gradientu, oblicza gradient błędu względem wag, po czym wagi są aktualizowane według równania wt+1 = wt − η ∇L(wt). Współczynnik uczenia reguluje odległość między starą a nową wartością w, a tym samym szybkość zmiany hipotezy modelu. Jeżeli η jest stale obniżany w czasie, mówimy o harmonogramie uczenia (learning rate schedule). Popularne są także metody adaptacyjne, gdzie każda współrzędna wektora wag otrzymuje osobną, dynamicznie wyliczaną wartość η, jak w optymalizatorach Adam czy RMSProp.
Kontekst historyczny
Pojęcie learning rate zostało formalnie opisane już przy okazji perceptronu Franka Rosenblatta w 1958 r., a następnie rozwijane na Uniwersytecie Stanforda oraz w MIT podczas badań nad algorytmami spadku gradientu. W latach 80. Geoffrey Hinton propagował zmienne współczynniki uczenia w sieciach wielowarstwowych, co istotnie skróciło czas treningu i ograniczyło zjawisko zatrzymania się w płaskich minimach.
Praktyczny przykład
Trenując konwolucyjną sieć klasyfikującą obrazy CIFAR-10, badacze z University of Toronto ustawili początkowy η = 0,1, a po 80 epokach zmniejszali go dziesięciokrotnie co 40 kolejnych epok. Zabieg ten pozwolił osiągnąć dokładność 93 % w mniej niż trzy godziny obliczeń na pojedynczym GPU, podczas gdy stały współczynnik η = 0,01 potrzebował ponad dwa razy więcej czasu, aby zbliżyć się do tego samego wyniku.
Zastosowania w praktyce
Współczynnik uczenia występuje w każdym algorytmie opartym na minimizacji poprzez gradient, od regresji logistycznej po modele językowe z miliardami parametrów. Harmonogramy uczenia stosuje się podczas trenowania sieci segmentacji medycznej, systemów rekomendacyjnych czy agentów uczenia ze wzmocnieniem. W porównaniu z metodami klasycznymi, np. algorytmem Gaussa-Newtona w statystyce, learning rate zapewnia kontrolę kroków bez kosztownego odwracania macierzy Hessego, dzięki czemu skaluje się do bardzo dużych zbiorów danych.
Zalety i ograniczenia
Elastyczność doboru η pozwala dopasować proces trenowania do dostępnych zasobów obliczeniowych, a także zminimalizować ryzyko utknięcia w lokalnych minimach. Ograniczeniem pozostaje konieczność żmudnego strojenia hiperparametru oraz jego wrażliwość na rozrzut gradientów, zwłaszcza w głębokich sieciach o setkach warstw.
Na co uważać?
Zbyt wysoki współczynnik uczenia powoduje niestabilne oscylacje wartości funkcji kosztu, a niekiedy gwałtowny wzrost błędu. Zbyt niski może prowadzić do pojawiania się zanikających gradientów i nadmiernego czasu treningu. Należy kontrolować także wpływ normalizacji danych i wyboru optymalizatora, gdyż parametry te oddziałują na efektywną wartość η w równaniu aktualizacji wag.
Alternatywy i adaptacyjne warianty
Choć klasyczny, globalny η bywa wystarczający w mniejszych modelach, w praktyce często zastępuje go wariant adaptacyjny. Algorytmy Adam, AdaGrad czy AdaDelta dopasowują kroki na podstawie historii gradientów, co redukuje potrzebę ręcznego strojenia i lepiej radzi sobie z różnymi skalami cech wejściowych.
Dodatkowe źródła
Szczegółowe omówienie koncepcji można znaleźć w artykule „A Tour of Gradient Descent Optimization Algorithms” autorstwa R. Ruder (arXiv:1609.04747). Podstawową definicję przytacza Wikipedia. Dobrym uzupełnieniem są notatki kursowe Andreja Karpathy’ego „CS231n: Optimization” dostępne na stronie Stanford University.


