Słownik AI

Szum (w uczeniu maszynowym) – ang. Noise, machine learning, ML Noise

Szum w uczeniu maszynowym – definicja i przykłady

Czym jest Szum (w uczeniu maszynowym) (Noise, machine learning)?

Szumem w uczeniu maszynowym nazywa się przypadkowe lub systematyczne zakłócenia obecne w danych wejściowych lub etykietach, które nie odzwierciedlają obserwowanego zjawiska i utrudniają modelowi odtworzenie prawidłowych zależności. Pojęcie to pojawiło się już w latach sześćdziesiątych XX w., gdy Donald Michie i jego współpracownicy analizowali wpływ błędów pomiarowych na wczesne systemy eksperymentalne. Od tamtej pory termin został ugruntowany w literaturze uczenia statystycznego i teorii informacji jako czynnik pogarszający dokładność predykcji.

Jak dokładnie działa Szum (w uczeniu maszynowym) (Noise, machine learning)

Szum występuje w różnych postaciach. Najczęstszą jest błąd pomiaru pochodzący z ograniczeń sprzętu lub niedoskonałej procedury zbierania danych. Inny wariant, określany jako label noise, pojawia się, gdy człowiek omyłkowo przypisze złą etykietę albo gdy algorytm generuje automatyczne adnotacje bez wystarczającej kontroli jakości. W analizie probabilistycznej rozróżnia się szum aleatoryczny, który jest nieusuwalny, oraz epistemiczny, wynikający z niepełnej wiedzy i potencjalnie możliwy do ograniczenia. Szum podnosi wariancję estymatora, co prowadzi do niestabilności predykcji i nadmiernego dopasowania. Klasyczne algorytmy deterministyczne, takie jak reguły oparte na logice, nie muszą walczyć z losowymi fluktuacjami danych, lecz jednocześnie nie potrafią generalizować, gdy pojawi się nieprzewidziana zmienność. Modele statystyczne muszą więc nauczyć się oddzielać sygnał od zakłóceń, stosując regularizację, uśrednianie lub metody baggingu.

Zastosowania w praktyce

Kontrola szumu staje się kluczowa w diagnostyce medycznej, gdzie dane z czujników EKG zawierają zakłócenia wynikające z ruchu pacjenta. Oczyszczenie sygnału poprawia wykrywanie arytmii. W przetwarzaniu języka naturalnego etykiety emocji pozyskiwane metodą crowdsourcingu również bywają obarczone błędem; techniki uczenia z niewiarygodnymi etykietami (ang. noise-robust learning) zmniejszają wpływ przypadkowych pomyłek.

Zalety i ograniczenia

Świadome wprowadzanie kontrolowanego szumu może działać jak regularizator, dzięki czemu model uczy się bardziej ogólnych wzorców i lepiej radzi sobie z nieznanymi przykładami. Z drugiej strony nadmierny poziom zakłóceń obniża górną granicę dokładności, ponieważ nawet perfekcyjny algorytm nie może odtworzyć informacji, której nie ma w danych.

Na co uważać?

Największym ryzykiem jest nieuświadomione nadmierne dopasowanie do szumu, które skutkuje wysoką dokładnością na zbiorze treningowym i słabymi wynikami produkcyjnymi. Trzeba też pamiętać, że agresywne filtrowanie może usunąć rzadkie, ale istotne obserwacje. W praktyce wykorzystuje się walidację krzyżową, testowanie na odrębnych zbiorach oraz metody odporne na outliery, aby wyważyć te sprzeczne cele.

Dodatkowe źródła

Praktyczne omówienie problemu szumu w danych etykietowanych przedstawia artykuł Beyond Class-Conditional Assumption for Noisy Labels. Podstawowe definicje i historyczne konteksty można znaleźć w haśle Szum (modelowanie statystyczne). Analizę teoretyczną zależności między wariancją a błędem wprowadza klasyczna praca Cross-Validation and Model Selection autorstwa C. Shalizi.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *