Słownik AI

Splotowa sieć neuronowa – ang. Convolutional Neural Network, CNN

Splotowa sieć neuronowa (CNN) – definicja i zastosowania

Czym jest Splotowa sieć neuronowa (Convolutional Neural Network)?

Splotowa sieć neuronowa, powszechnie nazywana CNN, to architektura sztucznych sieci neuronowych wyspecjalizowana w analizie danych o strukturze siatki, takich jak obrazy, sekwencje czasowe czy trójwymiarowe wolumeny medyczne. Kluczową cechą tej konstrukcji jest wykorzystanie operacji splotu, która pozwala modelowi automatycznie wykrywać lokalne wzorce – krawędzie, tekstury, a w wyższych warstwach kompletne obiekty – bez konieczności ręcznego projektowania cech przez inżyniera.

Jak dokładnie działa Splotowa sieć neuronowa (Convolutional Neural Network)

Sieć składa się z kolejnych warstw splotowych, w których filtry (jądra konwolucyjne) przesuwają się po danych wejściowych, obliczając iloczyn skalarny i tworząc tak zwane mapy cech. Filtry te dzielą parametry między wszystkie pozycje wejścia, co znacząco redukuje liczbę wag, ułatwia uczenie i sprzyja uogólnianiu. Po każdej warstwie splotu następują funkcje aktywacji, zwykle ReLU, wprowadzające nieliniowość, a także warstwy łączenia (najczęściej łączenie maksymalne), które zmniejszają rozdzielczość map cech i zapewniają niezmienniczość na niewielkie przesunięcia. W końcowej części sieci zwykle znajdują się w pełni połączone warstwy, które integrują zebrane informacje i dokonują ostatecznej klasyfikacji lub regresji. Całość parametrów jest optymalizowana metodą wstecznej propagacji błędu z wykorzystaniem algorytmu spadku gradientu.

Kontekst historyczny

Pierwszą udaną implementację konwolucyjnej architektury przedstawił Yann LeCun wraz z zespołem w 1989 roku, projektując system LeNet-5 do rozpoznawania cyfr na czekach bankowych. Przez kolejne lata zainteresowanie rosło stopniowo, a przełom w praktycznym wykorzystaniu nastąpił w 2012 roku, gdy model AlexNet autorstwa Alexa Krizhevskiego, Ilyi Sutskevera i Geoffa Hintona zdominował konkurs ImageNet, znacząco poprawiając dokładność klasyfikacji obrazów. Od tamtej pory CNN stały się fundamentem systemów widzenia komputerowego rozwijanych przez instytucje akademickie i zespoły inżynierskie firm technologicznych.

Zastosowania w praktyce

Dzięki zdolności do automatycznego wyodrębniania istotnych cech CNN wspierają diagnostykę medyczną, gdzie segmentują guz mózgu na obrazach rezonansu magnetycznego, oraz kontrolę jakości w przemyśle, wykrywając mikroskopijne pęknięcia na liniach produkcyjnych. W rozpoznawaniu twarzy stanowią trzon systemów odblokowujących urządzenia mobilne, a w motoryzacji wspomagają kamery w pojazdach, identyfikując znaki drogowe i pieszych w czasie rzeczywistym.

Zalety i ograniczenia

Parametry współdzielone przez filtry sprawiają, że CNN uczą się szybciej od klasycznych sieci w pełni połączonych, gdy dane wejściowe są wysokowymiarowe. W praktyce osiągają także znacznie wyższą dokładność, ponieważ wykrywają lokalne korelacje, których tradycyjne perceptrony nie są w stanie ująć. Ich elastyczność pozwala dostosować głębokość i szerokość architektury do konkretnego zadania. Z drugiej strony, skuteczne wyszkolenie głębokiego modelu wymaga sporej mocy obliczeniowej oraz dużych zbiorów oznaczonych danych, a rozmiar sieci bywa trudny do wdrożenia na urządzeniach brzegowych o ograniczonych zasobach.

Na co uważać?

Nadmierna głębokość może prowadzić do zaniku gradientu, choć współczesne techniki, takie jak normalizacja partii czy sieci rezydualne, łagodzą ten problem. CNN mogą także mylić się w obecności tzw. przykładów kontradyktoryjnych – niewielkich, celowych zakłóceń w pikselach obrazu. Dlatego w projektach produkcyjnych warto stosować uodparniające techniki trenowania i regularnie weryfikować działanie modelu na nowych próbkach danych.

Dodatkowe źródła

Pełniejszy opis architektury LeNet-5 znaleźć można w artykule Yanna LeCuna „Gradient‐Based Learning Applied to Document Recognition” opublikowanym w IEEE. Szczegóły dotyczące modelu AlexNet dostępne są w pracy „ImageNet Classification with Deep Convolutional Neural Networks” na stronie University of Toronto. Kompendium aktualnych rozwiązań oferuje hasło Wikipedia, natomiast przegląd porównawczy architektur znajduje się w artykule „A Survey on Convolutional Neural Networks” opublikowanym na arXiv.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *