Czym jest Błąd aproksymacji (Approximation error)?
Błąd aproksymacji opisuje różnicę między rzeczywistą funkcją generującą dane a funkcją reprezentowaną przez model uczący się. W praktyce stanowi miarę niedopasowania wynikające z ograniczonej złożoności architektury algorytmu lub z przyjętego zestawu hipotez. Im bardziej elastyczny model, tym mniejsze prawdopodobieństwo wystąpienia wysokiego błędu aproksymacji, choć zbyt duża elastyczność zwiększa ryzyko przeuczenia.
Jak dokładnie działa Błąd aproksymacji (Approximation error)
Podczas uczenia model stara się zminimalizować funkcję straty obliczaną na próbkach treningowych. Jeżeli przestrzeń funkcji, którą może reprezentować, nie obejmuje dokładnego odwzorowania zależności panujących w danych, powstaje luka – właśnie błąd aproksymacji. Formalnie określa się go jako różnicę pomiędzy wartością oczekiwaną straty idealnego modelu mieszczącego się w danej klasie a stratą modelu optymalnego bez żadnych ograniczeń. Na tę wartość nakładają się kolejno błąd estymacji oraz wariancja próbkowania, lecz sam AE wynika wyłącznie z ograniczeń architektury.
Kontekst historyczny i teoretyczny
Korzenie pojęcia sięgają analiz numerycznych z początków XX w., kiedy David Hilbert i Sergei Natanovich Bernstein badali własności aproksymacji wielomianowej. W zastosowaniach uczenia maszynowego termin spopularyzowali Ronald A. Howard oraz Herbert A. Simon w latach 1950–1960, opisując ograniczenia funkcji wartości w metodach dynamicznego programowania. Współczesne ujęcie bazuje na twierdzeniu o uniwersalnej aproksymacji George’a Cybenki (1989) oraz rozszerzeniach Kurta Hornika dla sieci z wieloma warstwami.
Zastosowania w praktyce
W problemach klasyfikacji obrazów inżynier może świadomie zaakceptować większy błąd aproksymacji, wybierając lżejszą sieć konwolucyjną, aby uprościć wdrożenie na urządzeniach mobilnych. W algorytmach rekomendacyjnych ograniczenie wymiaru wektorów użytkownika i produktu zmniejsza AE w takim stopniu, by model pozostawał dokładny, lecz jednocześnie szybki, co przekłada się na krótszy czas generowania poleceń.
Zalety i ograniczenia
Świadome zarządzanie błędem aproksymacji upraszcza interpretację modelu, pozwala na redukcję kosztów obliczeniowych i zwiększa odporność na szum. Zbyt wysoki AE prowadzi jednak do niedouczenia i utraty informacji, szczególnie gdy zjawiska w danych są złożone lub nieliniowe. W takich sytuacjach konieczne staje się rozszerzenie architektury albo zastosowanie metod zespołowych.
Na co uważać?
Projektując system, należy znaleźć równowagę między błędem aproksymacji a błędem estymacji. Zwiększanie liczby parametrów zmniejsza AE, lecz podwyższa wariancję i ryzyko nadmiernego dopasowania. Pomocne bywa stosowanie walidacji krzyżowej, regularyzacji L1 lub L2 oraz analizy uczenia krzyżowego learning curves, które pokazują, czy ograniczenia architektury, a nie brak danych, są głównym źródłem błędu.
Dodatkowe źródła
Rozbudowane omówienie zagadnienia znajduje się w artykule Wikipedia – Approximation error. Ujęcie teoretyczne pod kątem sieci neuronowych prezentuje praca arXiv:2105.05633 – Generalization in Deep Learning. W kontekście twierdzenia o uniwersalnej aproksymacji warto zajrzeć do oryginalnej publikacji G. Cybenko (1989).


