Czym jest Kompromis bias-wariancja (Bias–variance tradeoff)?
Kompromis bias-wariancja opisuje zależność między dwoma składnikami błędu generalizacji modelu uczenia maszynowego: systematycznym odchyleniem (bias), które mierzy, jak bardzo przewidywania odbiegają od prawdziwego wzorca, oraz wariancją, która oddaje wrażliwość modelu na fluktuacje w danych treningowych. Zbyt prosty model ma wysoki bias i nie uczy się zjawiska dostatecznie dobrze; zbyt złożony charakteryzuje się wysoką wariancją i nadmiernie dopasowuje się do przykładów treningowych. Esencją kompromisu jest znalezienie punktu równowagi, w którym łączny błąd jest możliwie najmniejszy.
Jak dokładnie działa Kompromis bias-wariancja (Bias–variance tradeoff)
Formalnie całkowity błąd kwadratowy można rozłożyć na sumę biasu kwadratowego, wariancji oraz nieusuwalnego szumu w danych. Podczas trenowania modelu regularyzacja, dobór liczby parametrów, rozmiar próbek lub techniki takie jak bagging zmieniają relację między biasem a wariancją. Głębokie sieci neuronowe z dużą liczbą warstw potrafią zmniejszać bias kosztem rosnącej wariancji, natomiast liniowa regresja ma zazwyczaj niski poziom wariancji i wyższy bias.
Kontekst historyczny
Pojęcie biasu i wariancji pojawiło się w statystyce już w XIX w. w pracach Carla Friedricha Gaussa, lecz współczesną analizę kompromisu zaprezentowali w 1992 r. Stuart Geman, Elie Bienenstock i René Doursat w publikacji „Neural Networks and the Bias/Variance Dilemma”. Dokładne sformalizowanie problemu stało się kluczowe dla rozwoju metod walidacji krzyżowej i technik regularizacji w uczeniu maszynowym.
Zastosowania w praktyce
Przykładem codziennego użycia kompromisu jest dobór głębokości drzewa decyzyjnego. Płytkie drzewo charakteryzuje się dużym biasem i pomija złożone zależności, natomiast głębokie drzewo może nadmiernie odwzorować szum w danych, zwiększając wariancję. Metody ensemble, takie jak Random Forest, obniżają wariancję przez uśrednianie wielu drzew, zachowując przy tym relatywnie niski bias.
Zalety i ograniczenia
Świadomość kompromisu pozwala projektować modele, które lepiej generalizują do nieznanych danych. Ograniczeniem jest konieczność szacowania poziomu szumu i trudność precyzyjnego wyważenia złożoności w przypadku wysokowymiarowych zbiorów danych.
Na co uważać?
Podczas strojenia hiperparametrów łatwo nieświadomie minimalizować błąd na zbiorze walidacyjnym kosztem wzrostu wariancji względem danych produkcyjnych. Warto stosować walidację krzyżową, monitorować błąd po wdrożeniu oraz unikać zbyt agresywnej regularyzacji, która może niepotrzebnie podnosić bias.
Dodatkowe źródła
Szczegółowe omówienie teorii zawiera artykuł Bias–variance tradeoff na Wikipedii. Rozwinięte analizy empiryczne można znaleźć w pracy arXiv:2007.03051. Klasyczny tekst Geman, Bienenstock i Doursat jest udostępniony przez Cornell University.


