Czym jest Niedouczenie?
Niedouczenie to stan, w którym model uczony z danych nie potrafi uchwycić zależności ukrytych w zbiorze treningowym i dlatego generuje duże błędy zarówno na danych uczących, jak i testowych. W języku angielskim zjawisko to określa się jako underfitting. W praktyce oznacza to, że model jest zbyt prosty w stosunku do złożoności problemu: posiada niewystarczającą liczbę parametrów, zbyt agresywną regularyzację lub został nauczony zbyt krótko.
Kontekst historyczny
Termin underfitting pojawił się w literaturze statystycznej pod koniec lat 70., kiedy Leo Breiman i Jerome Friedman badali uogólnienie drzew decyzyjnych. Wraz z rozwojem uczenia maszynowego w latach 90. koncept niedouczenia stał się kluczowym wątkiem prac na temat kompromisu między błędem treningowym a testowym, szerzej omawianym w publikacjach takich jak „The Bias-Variance Dilemma” (Geman, Bienenstock, Doursat, 1992).
Jak dokładnie działa Niedouczenie
Matematycznie sytuacja niedouczenia występuje, gdy błąd wynikający z uprzedzeń modelu (bias) dominuje nad wariancją. Przykładowo: liniowa regresja próbująca odwzorować nieliniową funkcję sinusoidalną uśrednia oscylacje, osiągając wysoki błąd średniokwadratowy już na danych treningowych. W sieciach neuronowych niedouczenie można rozpoznać, gdy po kilku epokach krzywa błędu stabilizuje się na wysokim poziomie i nie ulega poprawie nawet przy braku wzrostu błędu walidacyjnego.
Praktyczny przykład
Załóżmy problem klasyfikacji obrazów kotów i psów. Jeśli użyjemy sieci splotowej z jedną warstwą i małą liczbą filtrów, dokładność na zbiorze treningowym może utknąć na 60 %. To wskazuje, że model nie nauczył się rozróżniania kluczowych cech, takich jak kontury czy faktura sierści. Dodanie kolejnych warstw lub dłuższe trenowanie może znacząco zmniejszyć błąd.
Zastosowania w praktyce
Zrozumienie niedouczenia jest niezbędne w projektach, gdzie kluczowa jest równowaga między kosztem obliczeń a dokładnością. W systemach rekomendacyjnych o budgetowym limicie zasobów inżynier może świadomie akceptować lekki poziom niedouczenia, by przyspieszyć czas odpowiedzi. W kontrastowych metodach klasyfikacji medycznej minimalizacja niedouczenia staje się priorytetem ze względu na potencjalne konsekwencje kliniczne.
Zalety i ograniczenia
Modele o niskiej złożoności, a więc podatne na niedouczenie, są łatwiejsze w interpretacji i szybsze w działaniu. Mogą jednak przegapić subtelne korelacje, co ogranicza ich przydatność w złożonych zadaniach. W odróżnieniu od klasycznych metod statystycznych, takich jak regresja liniowa, nowoczesne sieci głębokie potrafią lepiej dopasować się do danych lecz wymagają starannej kontroli, aby nie popaść w przeciwieństwo niedouczenia – przeuczenie.
Na co uważać?
Najczęstszym sygnałem niedouczenia jest niewielka różnica pomiędzy błędem treningowym i walidacyjnym przy jednocześnie wysokiej wartości obu miar. W takiej sytuacji warto rozważyć zwiększenie liczby parametrów, wydłużenie treningu lub redukcję regularizacji. Trzeba jednak zachować umiar, by nie doprowadzić do przeuczenia. W projektach komercyjnych istotne jest także monitorowanie zmian w dystrybucji danych; niekiedy niedouczenie jest skutkiem przestarzałego zbioru treningowego, który nie obejmuje nowych przypadków użycia.
Dodatkowe źródła
Szczegółowe omówienie zjawiska można znaleźć w artykule „Pattern Recognition and Machine Learning” Christophera Bishopa oraz w hasłach encyklopedycznych Wikipedia: Underfitting. Warto również przejrzeć analizę bias-variance w pracy arXiv:1812.00399, która przedstawia nowoczesne techniki diagnozowania niedouczenia w sieciach głębokich.


