Słownik AI

Płytkie uczenie – ang. Shallow Learning, SL

Płytkie uczenie (Shallow learning) – definicja i zastosowania

Czym jest Płytkie uczenie (Shallow learning)?

Płytkie uczenie, określane w literaturze anglojęzycznej jako Shallow Learning (SL), obejmuje grupę algorytmów uczenia maszynowego charakteryzujących się niewielką liczbą warstw przetwarzania danych, zwykle jedną warstwą transformacji lub liniową kombinacją cech wejściowych. Modele tego typu polegają na ręcznie dobranych reprezentacjach danych i w przeciwieństwie do sieci głębokich nie generują wielopoziomowych hierarchii abstrakcji. Dzięki temu są lżejsze obliczeniowo, łatwiejsze do interpretacji i szybciej osiągają zadowalającą jakość predykcji przy umiarkowanej liczbie parametrów.

Jak dokładnie działa Płytkie uczenie (Shallow learning)

Proces rozpoczyna się od przygotowania zestawu cech opisujących zjawisko, na przykład częstotliwości występowania słów w analizie tekstu czy wartości wybranych wskaźników finansowych. Następnie algorytm – najczęściej regresja logistyczna, maszyna wektorów nośnych (SVM), k-najbliższych sąsiadów (k-NN) lub naiwny klasyfikator Bayesa – uczy się zależności pomiędzy cechami a etykietą klasy. Trenowanie polega na minimalizacji funkcji błędu za pomocą metod optymalizacji pierwszego rzędu lub rozwiązywania problemu optymalizacji wypukłej. Po zbiegu model dysponuje macierzą wag lub zestawem współczynników definiujących granicę decyzyjną w przestrzeni cech.

Kontekst historyczny

Koncepcje uznawane dziś za część płytkiego uczenia pojawiły się już w latach 50. XX wieku wraz z perceptronem Franka Rosenblatta. W kolejnych dekadach trwały intensywne prace w zespołach uczonych z Cornell, Bell Labs, IBM oraz University of Toronto nad metodami regresji, analizą dyskryminant i algorytmami kernela, czego ukoronowaniem stały się publikacje Vapnika i Cortesa (1995) wprowadzające SVM. W praktyce biznesowej popularność zyskały dopiero na przełomie XX i XXI wieku, gdy komputery osobiste umożliwiły masowe trenowanie modeli na tablicach arkuszy kalkulacyjnych.

Zastosowania w praktyce

Płytkie modele wciąż dominują w zadaniach o ograniczonej liczbie próbek i wymogu wyjaśnialności. Przykładem jest filtrowanie spamu w poczcie elektronicznej, gdzie regresja logistyczna bazująca na starannie wyselekcjonowanych słowach kluczowych błyskawicznie odrzuca niepożądane wiadomości. W przemyśle finansowym algorytmy SVM wspierają ocenę ryzyka kredytowego, a w medycynie statyczne klasyfikatory Bayesa pomagają diagnozować choroby rzadkie, gdy duże sieci neuronowe są trudne do uzasadnienia klinicznie.

Zalety i ograniczenia

Do największych atutów płytkiego uczenia należy transparentność modeli i relatywnie niewielkie zapotrzebowanie na dane. Wyniki można łatwo interpretować, co ułatwia spełnienie norm regulacyjnych. Jednocześnie brak głębokich warstw utrudnia wychwycenie skomplikowanych, nieliniowych zależności występujących w obrazach czy dźwięku. Modele SL szybciej ulegają przesyceniu informacjami i osiągają sufit wydajności, którego nie przekroczą bez wzbogacenia reprezentacji danych lub przejścia na architektury wielowarstwowe.

Na co uważać?

Płytkie algorytmy są podatne na zjawisko feature leakage, gdy cechy wejściowe nieświadomie wykorzystują informacje niedostępne w rzeczywistym środowisku produkcyjnym. Wadliwie przygotowany zestaw atrybutów może spowodować wysoką skuteczność na zbiorze walidacyjnym, lecz dramatyczny spadek jakości po wdrożeniu. Warto także kontrolować skalę danych, ponieważ niektóre metody, takie jak k-NN, zużywają znaczące zasoby pamięci przy milionach obserwacji.

Dodatkowe źródła

Podstawowe informacje można znaleźć w artykule Shallow Learning. Oryginalną publikację o SVM opisuje praca Vapnik & Cortes (1995). Historyczne tło perceptronu przedstawia Perceptron – Wikipedia. Aktualne przeglądy literatury dostępne są na platformie arXiv.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *