Słownik AI

Maszyna wektorów nośnych – ang. Support Vector Machine, SVM

Maszyna wektorów nośnych (SVM) – definicja i działanie

Czym jest Maszyna wektorów nośnych (Support Vector Machine, SVM)?

Maszyna wektorów nośnych to metoda uczenia nadzorowanego, zaprojektowana początkowo do zadań klasyfikacji binarnej. Model szuka hiper­płaszczyzny maksymalizującej margines między przykładami dwóch klas. Koncepcja wywodzi się z prac Władimira Vapnika i Alexeia Chervonenkisa z lat sześćdziesiątych XX w., jednak praktyczne algorytmy, które znamy dzisiaj, zostały rozwinięte w laboratoriach AT&T Bell Laboratories na początku lat dziewięćdziesiątych.

Jak dokładnie działa Maszyna wektorów nośnych (Support Vector Machine, SVM)

Podstawową ideą jest identyfikacja tzw. wektorów nośnych, czyli obserwacji leżących najbliżej granicy decyzyjnej. To one determinują położenie hiper­płaszczyzny. Jeżeli dane są nieliniowo separowalne w przestrzeni oryginalnej, algorytm wykorzystuje przekształcenia jądrowe, aby przenieść je do przestrzeni o wyższym wymiarze, gdzie separacja liniowa staje się możliwa. Popularne jądra obejmują radial basis function, wielomianowe oraz sigmoidalne. Optymalizacja polega na rozwiązaniu zadania programowania kwadratowego z ograniczeniami, co gwarantuje znalezienie globalnego minimum.

Tło historyczne i rozwój

Pierwsze zastosowania opublikowano w 1992 r. Władimir Vapnik wraz z Corinną Cortes opisali tzw. soft margin SVM, które pozwala na częściową tolerancję błędów, co znacząco zwiększyło odporność modelu na dane z szumem.

Zastosowania w praktyce

SVM stosuje się przy rozpoznawaniu pisma odręcznego, klasyfikacji sekwencji genomowych, filtracji spamu, a także w systemach wykrywania intruzów. Przykładowo, w projekcie Optical Character Recognition firmy USPS model SVM osiągnął ponad 95 % dokładności już przy ograniczonej liczbie parametrów, co w tamtym czasie przewyższało klasyczną regresję logistyczną.

Zalety i ograniczenia

Największą zaletą jest zdolność do pracy w wysokich wymiarach i odporność na przeuczenie dzięki maksymalizacji marginesu. Model wymaga jednak starannego doboru funkcji jądra i parametrów regularyzacji, a czas trenowania rośnie kwadratowo z liczbą przykładów, co czyni go mniej efektywnym w bardzo dużych zbiorach danych w porównaniu z nowoczesnymi lasami losowymi czy sieciami neuronowymi.

Na co uważać?

Niewłaściwe skalowanie cech może obniżyć skuteczność, ponieważ SVM bazuje na odległościach między punktami. Warto również monitorować zbalansowanie klas; w skrajnie niezrównoważonych danych margines może faworyzować klasę dominującą. Kolejnym wyzwaniem jest interpretowalność w przypadku złożonych jąder, gdzie wgląd w strukturę decyzyjną staje się ograniczony.

Dodatkowe źródła

Szczegółowe omówienie teorii można znaleźć w książce „Statistical Learning Theory” Władimira Vapnika, a praktyczne przykłady implementacji w repozytorium scikit-learn. Dla zainteresowanych dowodem zbieżności do granicy Bayesa wartościowe będzie opracowanie na arXiv. Przegląd historyczny i porównanie z innymi klasyfikatorami znajduje się na Wikipedii.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *