Słownik AI

Entropia (teoria informacji) – ang. Entropy, information theory

Entropia w teorii informacji – definicja i zastosowania AI

Czym jest Entropia (teoria informacji)?

Entropia w rozumieniu teorii informacji mierzy niepewność towarzyszącą losowym zdarzeniom lub, inaczej mówiąc, średnią ilość informacji konieczną do zakodowania wyników doświadczenia. Pojęcie wprowadził Claude E. Shannon w artykule „A Mathematical Theory of Communication” opublikowanym w 1948 roku na łamach Bell System Technical Journal. W klasycznej postaci entropia dla dyskretnego źródła o rozkładzie prawdopodobieństwa p(x) definiowana jest wzorem H(X)=−∑xp(x)log p(x), gdzie log przyjmuje się najczęściej w bazie 2, dzięki czemu jednostką jest bit.

Jak dokładnie działa Entropia (teoria informacji)

Wartość entropii rośnie, gdy rozkład jest bardziej wyrównany, a spada, gdy prawdopodobieństwo skupia się na nielicznych zdarzeniach. Dla dwustanowego źródła maksymalna entropia 1 b pada przy p=0,5. W praktyce to kryterium wyznacza granicę pomiędzy „zaskakującymi” a „przewidywalnymi” komunikatami. W modelach uczenia maszynowego entropia leży u podstaw takich pojęć jak cross-entropy i dywergencja Kullbacka-Leiblera, wykorzystywanych do trenowania sieci neuronowych poprzez minimalizację różnicy pomiędzy rozkładem przewidywanym a rzeczywistym.

Przykład obliczeniowy

Rozważmy klasyfikator diagnozujący chorobę, który dla badanego pacjenta zwraca prawdopodobieństwa 0,9 (choroba) oraz 0,1 (brak choroby). Entropia wynosi −0,9·log20,9 − 0,1·log20,1 ≈ 0,47 b. Niewielka wartość wskazuje, że system jest dość pewny decyzji, co zmniejsza ilość informacji niezbędną do zakodowania wyniku.

Zastosowania w praktyce

Entropia umożliwia projektowanie adaptacyjnych schematów kodowania, takich jak kod Huffmana, a w analizie danych służy do wyboru atrybutów w drzewach decyzyjnych poprzez miarę informacji wzajemnej. W głębokich sieciach wykorzystuje się ją do formułowania funkcji straty cross-entropy, która prowadzi do szybkiej konwergencji algorytmu uczenia. W modelach generatywnych entropia steruje temperaturą próbkowania, zapewniając równowagę pomiędzy kreatywnością a spójnością wygenerowanych treści.

Zalety i ograniczenia

Głównym atutem entropii jest jej solidne uzasadnienie matematyczne, które czyni wskaźnik niezależnym od konkretnej dziedziny zastosowań. Dzięki temu łatwo porównywać modele pod kątem jakości ich prognoz. Trzeba jednak pamiętać, że sama entropia opisuje jedynie rozkład, nie uwzględniając semantycznego znaczenia informacji, co może prowadzić do niepełnych wniosków w analizach, w których treść ma równie duże znaczenie jak częstotliwość.

Na co uważać?

Wysoka entropia nie zawsze świadczy o pożądanej losowości – w zbiorach z dużą liczbą klas może utrudniać naukę modelu, wymuszając większą liczbę próbek do osiągnięcia satysfakcjonującej dokładności. W danych ciągłych warto stosować uogólnienie w postaci entropii różniczkowej, która jednak bywa dodatnia lub ujemna w zależności od jednostki miary, co należy uwzględnić przy interpretacji.

Dodatkowe źródła

Uzupełniające omówienia znaleźć można w haśle Wikipedii, a także w podręczniku „Elements of Information Theory” autorstwa Thomasa M. Covera i Joy A. Thomasa. Z perspektywy uczenia maszynowego warty polecenia jest artykuł „Deep Learning” (rozdział 6) dostępny w wersji open access na stronie autorów. Aktualne badania nad rolą entropii w samoregulacji modeli językowych opisuje publikacja arXiv:2010.07734.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *