Czym jest Uczenie półnadzorowane (Semi-supervised Learning)?
Uczenie półnadzorowane, powszechnie określane skrótem SSL, opisuje metody trenowania modeli, które łączą niewielką pulę danych z etykietami z dużym zbiorem przykładów nieopatrzonych opisem. Praktyka ta stanowi kompromis między uczeniem z pełnym nadzorem a uczeniem bez nadzoru, pozwalając algorytmom czerpać informację strukturalną z nieoznaczonych obserwacji, a jednocześnie kalibrować swoje predykcje na podstawie ograniczonej liczby prawidłowych odpowiedzi.
Rys historyczny
Choć pierwsze idee łączenia danych oznaczonych i nieoznaczonych pojawiały się już w latach dziewięćdziesiątych, termin „semi-supervised learning” upowszechnił się wraz z pracami Avrila Yarowskiego (1995) nad klasyfikacją tekstu oraz publikacją przeglądu Xiaojina Zhu z Carnegie Mellon University w 2005 roku. Od tego czasu SSL rozwijano równolegle w środowiskach akademickich (University of Wisconsin-Madison, Stanford, Microsoft Research) i w przemyśle, szczególnie tam, gdzie pozyskiwanie etykiet jest kosztowne.
Jak dokładnie działa Uczenie półnadzorowane (Semi-supervised Learning)
Typowy proces rozpoczyna się od zainicjowania modelu na podstawie niewielkiego, starannie oznaczonego podzbioru danych. Na kolejnym etapie model generuje wstępne predykcje dla przykładów nieoznaczonych. Techniki takie jak pseudo-labeling, konsystencja między perturbacjami czy propagacja grafowa pozwalają stopniowo włączać najpewniejsze prognozy do zbioru treningowego. Dzięki temu sieć neuronowa, las losowy lub inny klasyfikator zyskuje dostęp do znacznie większej objętości informacji niż wynikałoby to wyłącznie z oznaczonych obserwacji.
Subtelne porównanie z metodami klasycznymi
W uczeniu nadzorowanym dokładność rośnie wraz z liczbą etykiet, jednak koszt anotacji bywa zaporowy. Uczenie bez nadzoru obchodzi ten koszt, ale nie zawsze dostarcza kategorii zgodnych z wymaganiami biznesowymi. Uczenie półnadzorowane łączy zalety obu podejść: redukuje potrzebę etykietowania, a jednocześnie zachowuje kontrolę nad definicją klas.
Zastosowania w praktyce
SSL sprawdza się w rozpoznawaniu obrazów medycznych, gdzie ręczne oznaczanie tysięcy skanów wymaga wiedzy radiologa. Wykorzystuje się je również w moderacji treści wideo, detekcji anomalii w sieciach telekomunikacyjnych oraz przetwarzaniu języka naturalnego, np. w klasyfikacji intencji w czatach klient-firma, gdzie modele uczą się na dużych, częściowo opisanych konwersacjach.
Zalety i ograniczenia
Największym atutem SSL jest obniżenie kosztu przygotowania danych przy zachowaniu konkurencyjnej skuteczności modelu. Metody te potrafią także lepiej uogólniać, ponieważ poznają naturalną strukturę cech. Należy jednak pamiętać, że algorytmy SSL są wrażliwe na jakość początkowych etykiet: błędy w tym zbiorze mogą rozprzestrzenić się na dane nieoznaczone. Proces doboru progów pewności i walidacji wyników wymaga doświadczenia.
Na co uważać?
Podczas implementacji SSL kluczowe jest zapobieganie propagacji błędnych pseudo-etykiet. Wskazane jest wykonywanie walidacji krzyżowej na wyizolowanym zbiorze testowym oraz stosowanie technik regularyzacyjnych, takich jak perturbacje danych lub drop-out, aby ograniczyć przeuczenie. Opłaca się również monitorować rozkład klas, ponieważ modele mogą faworyzować dominujące etykiety, jeżeli rozkład danych nieoznaczonych jest nierównomierny.
Dodatkowe źródła
Dogłębny opis teorii i algorytmów znajduje się w przeglądowym artykule Xiaojina Zhu „Semi-Supervised Learning Literature Survey” dostępnym w repozytorium CMU. Kontekst historyczny i przykłady kodu można znaleźć w haśle Wikipedia. Najnowsze warianty SSL dla sieci głębokich omawia publikacja „FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence” na arXiv.


