Słownik AI

Maszyna Boltzmanna – ang. Boltzmann machine (BM)

Maszyna Boltzmanna – definicja i zastosowania AI

Czym jest Maszyna Boltzmanna (Boltzmann machine)?

Maszyna Boltzmanna to stochastyczna, sieciowa architektura generatywna wykorzystywana w uczeniu maszynowym. Struktura składa się z binarnych neuronów połączonych symetrycznymi wagami. Inspirację stanowi termodynamika, a dokładniej rozkład Boltzmanna opisujący zależność prawdopodobieństwa stanów układu od energii. Model wprowadził w 1985 roku Geoffrey Hinton wraz z Terrym Sejnowskim w Carnegie Mellon University, rozwijając wcześniejsze koncepcje sieci Hopfielda i ideę uczenia poprzez minimalizację energii.

Jak dokładnie działa Maszyna Boltzmanna

Sieć tworzy nieukierunkowany graf, w którym każdy neuron przyjmuje wartość 0 lub 1. Stan globalny opisuje funkcja energii – im niższa, tym wyższe prawdopodobieństwo wystąpienia danego wzorca. Uczenie polega na modyfikacji wag tak, aby prawdopodobieństwa generowane przez model możliwie dokładnie odzwierciedlały rozkład danych uczących. W praktyce proces realizuje Gibbs sampling, czyli losową aktualizację jednostek w oparciu o lokalną temperaturę, co pozwala eksplorować przestrzeń stanów i zbiegać do minimum energii.

Warstwa ukryta i warianty modelu

Pełna Maszyna Boltzmanna ma połączenia między wszystkimi neuronami. Wersja z warstwą ukrytą, lecz bez połączeń wewnątrz warstw – Restricted Boltzmann Machine (RBM) – upraszcza uczenie i wprowadza faktoryzację rozkładu prawdopodobieństwa. RBM stała się fundamentem głębokich sieci wierzących (Deep Belief Networks), w których kolejne warstwy RBM uczone są hierarchicznie.

Zastosowania w praktyce

Dzięki zdolności reprezentowania złożonych rozkładów Maszyna Boltzmanna znajduje zastosowanie w kompresji danych, filtrowaniu rekomendacji, modelowaniu obrazów oraz inicjalizacji wag głębokich sieci klasyfikacyjnych. Przykładowo, RBM trenowane na zbiorze MNIST potrafi generować realistyczne cyfry, a uzyskane wektory cech poprawiają skuteczność późniejszego klasyfikatora logistycznego.

Zalety i ograniczenia

Do najważniejszych atutów należy generatywny charakter, możliwość pracy bez etykiet oraz matematycznie ugruntowana interpretacja probabilistyczna. Model dobrze wychwytuje korelacje między zmiennymi, a w wariancie RBM ułatwia pre-trening głębokich architektur. Z drugiej strony pełna Maszyna Boltzmanna wymaga kosztownych obliczeń Monte Carlo, co utrudnia skalowanie. Konwergencja bywa wolna, a hiperparametry, takie jak temperatura czy liczba kroków Gibbs sampling, silnie wpływają na wynik.

Na co uważać?

Przy zbyt małej liczbie iteracji próbka sieci nie zdąży odwzorować rozkładu docelowego, co prowadzi do niedouczenia. Wysoka złożoność czasowa sprzyja również przeuczeniu, zwłaszcza gdy rozmiar warstwy ukrytej jest nadmierny. W praktyce stosuje się algorytm Contrastive Divergence, który przyspiesza uczenie, lecz wprowadza przybliżenie i może generować błędy estymacji energii. Warto monitorować wartości energii na zbiorach walidacyjnych i korzystać z regularizacji wag.

Dodatkowe źródła

Szczegółowe omówienie matematyki modelu można znaleźć w artykule Hinton, Sejnowski „Learning and Relearning in Boltzmann Machines”. Zwięzła definicja wraz z przykładami dostępna jest w serwisie Wikipedia. Aktualne badania nad wariantami kwantowymi można przejrzeć w repozytorium arXiv.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *