Czym jest Teoria sieci tensorowych (tensor network theory)?
Teoria sieci tensorowych opisuje matematyczny sposób reprezentowania bardzo złożonych obiektów, takich jak wielowymiarowe macierze czy funkcje falowe w fizyce kwantowej, za pomocą połączonych ze sobą mniejszych elementów zwanych tensorami. Idea została spopularyzowana w latach dziewięćdziesiątych przez grupy badawcze z Uniwersytetu w Oxfordzie i Uniwersytetu w Stuttgarcie, a ważny impuls dały publikacje Stevena R. White’a dotyczące metod DMRG (1992) oraz późniejsze prace Romána Orúsa i Guifrého Vidala nad tzw. Matrix Product States. W kontekście AI sieci tensorowe służą do kompaktowego zapisu parametrów modeli oraz do usprawnienia obliczeń liniowych, które dominują w uczeniu maszynowym.
Jak dokładnie działa Teoria sieci tensorowych (tensor network theory)
Tensor jest uogólnieniem wektora i macierzy na dowolną liczbę wymiarów. W sieci tensorowej poszczególne tensory łączy się w węzłach, a krawędzie opisują wielkości kontrakcji, czyli sumowania po wspólnych indeksach. Kontrakcja zastępuje kosztowną algebrę macierzową zestawem lokalnych operacji wykonywanych krok po kroku. Dzięki temu obliczenia, które w tradycyjnym zapisie rosną wykładniczo wraz z liczbą wymiarów, można wykonać w czasie wielomianowym względem rozmiaru sieci. W praktyce najczęściej stosuje się struktury liniowe (Matrix Product States), drzewiaste (Tree Tensor Networks) lub sieci o topologii sieci kratowej (Projected Entangled Pair States). W uczeniu głębokim odpowiednikiem kontrakcji jest zastąpienie dużych macierzy wag ciągiem mniejszych bloków, co obniża liczbę parametrów i pamięciożerność.
Kontekst historyczny i rozwój
Początki sięgają metod renormalizacji w fizyce statystycznej, gdzie Ludwig P. Kadanoff i Kenneth G. Wilson badali skalowanie układów kwantowych (lata 70.). W 2006 roku Ignacio Cirac i Frank Verstraete pokazali, że sieci tensorowe są naturalnym językiem zapisu stanów splątanych. Od 2015 roku IBM Research, University of Waterloo i Google Brain zaczęły testować je w kompresji sieci neuronowych, wykazując, że tensory złożone w łańcuch mogą zastąpić klasyczne warstwy w pełni połączone.
Zastosowania w praktyce
Najbardziej wymierne korzyści przyniosły projekty redukcji parametrów w modelach przetwarzania języka naturalnego. W eksperymencie Google Brain z 2019 roku architektura LSTM została zastąpiona wariantem Tensor Train, zmniejszając liczbę wag o prawie dwa rzędy wielkości przy nieznacznej utracie dokładności. Podobny zabieg zastosowano w sieciach wizji komputerowej, wykorzystując Tensor Ring Decomposition do kompresji warstw konwolucyjnych w klasyfikatorze obrazów. W fizyce kwantowej sieci tensorowe pomagają symulować kubity, co wspiera projektowanie sprzętu kwantowego bez konieczności budowy pełnych urządzeń.
Zalety i ograniczenia
Do najważniejszych zalet należy dramatyczne zmniejszenie liczby parametrów oraz lepsze zrozumienie struktury zależności w danych. Ponadto sieci tensorowe są dobrze zrównoleglane, co przyśpiesza trening. Ograniczenia wynikają z trudności doboru odpowiedniej topologii i rangi, a także z faktu, że kompresja może pogorszyć zdolność modelu do reprezentacji bardzo nieregularnych wzorców. Skuteczne wdrożenie wymaga wiedzy z algebry multilinearnej, co podnosi próg wejścia dla inżynierów AI.
Na co uważać?
Kluczowe jest monitorowanie strat informacyjnych. Zbyt agresywna redukcja rangi prowadzi do niedouczenia modelu. Warto testować różne strategie inicjalizacji, ponieważ sieci tensorowe bywają wrażliwe na rozkład wartości początkowych. Kontrakcja może stać się wąskim gardłem, jeśli wybierze się nieoptymalny porządek mnożeń; dlatego stosuje się heurystyki optymalizujące plan obliczeń.
Dodatkowe źródła
Szczegółowe wprowadzenie teoretyczne zawiera artykuł „An Introduction to Tensor Networks”. Praktyczne aspekty kompresji sieci neuronowych omówiono w pracy „Tensorizing Neural Networks”. Kontekst historyczny można znaleźć w biogramie Stevena R. White’a oraz na stronie Wikipedia – Tensor Network Theory.


