Słownik AI

Drzewo decyzyjne – ang. Decision tree, DT

Drzewo decyzyjne (Decision tree) – definicja i zastosowania

Czym jest Drzewo decyzyjne (Decision tree)?

Drzewo decyzyjne to model predykcyjny służący do klasyfikacji lub regresji, który reprezentuje złożony proces podejmowania decyzji w formie hierarchii pytanie-odpowiedź. Każdy węzeł wewnętrzny zawiera test na jednej z cech, gałęzie odpowiadają możliwym wynikom tego testu, a liście przechowują prognozę lub etykietę klasy. W odróżnieniu od zbiorczych modeli statystycznych drzewo pozostaje w pełni przejrzyste: przepływ od korzenia do liścia można odczytać jako jedną, liniową regułę decyzyjną.

Krótki zarys historyczny

Pierwsze formalne próby tworzenia drzew klasyfikacyjnych pojawiły się w latach sześćdziesiątych XX w. w pracach Johna A. Nagy’ego, a następnie w systemie Automatic Interaction Detection rozwijanym w University of Michigan przez J. Morgana i J. Sonquista (1963). Największy wpływ na popularyzację metody miały jednak algorytmy ID3, C4.5 i CART opracowane odpowiednio przez Rossa Quinlana (University of Sydney, 1986–1993) oraz zespół Breimana, Friedmana, Olshena i Stone’a (Stanford/Berkeley, 1984). Wraz z rozwojem uczenia maszynowego drzewa stały się podstawą bardziej złożonych technik, takich jak Random Forest czy Gradient Boosting.

Jak dokładnie działa Drzewo decyzyjne (Decision tree)

Proces budowy rozpoczyna się od wyboru najlepszej cechy do rozdzielenia zbioru uczącego. Kryterium „najlepszości” mierzy się zazwyczaj spadkiem niejednorodności, obliczanym za pomocą entropii, indeksu Giniego lub wariancji. Po podziale dane trafiają do potomnych węzłów, a procedura rekurencyjnie się powtarza, dopóki gałęzie nie osiągną minimalnej liczby obserwacji lub nie nastąpi pełna jednorodność. Nadmierna głębokość zwiększa ryzyko przeuczenia, dlatego powszechnie stosuje się przycinanie drzewa (post-pruning) bądź ograniczenia maksymalnej wysokości.

Podczas predykcji nowy przykład przechodzi od korzenia do liścia, podążając za warunkami logicznymi. W zastosowaniach regresyjnych liść zwraca średnią wartość celu, w klasyfikacji – klasę dominującą lub wektor prawdopodobieństw.

Zastosowania w praktyce

Dzięki czytelności i niewielkim wymaganiom obliczeniowym drzewa decyzyjne są wykorzystywane w systemach oceny ryzyka kredytowego, diagnozie medycznej, selekcji kandydatów HR, detekcji nadużyć, prognozowaniu popytu czy analizie churnu klientów. W wielu z tych dziedzin kluczowe znaczenie ma możliwość uzasadnienia decyzji, co odróżnia drzewa od modeli typu sieci neuronowe.

Zalety i ograniczenia

Największą mocną stroną drzewa pozostaje transparentność: każdą ścieżkę można przełożyć na prosty zestaw reguł „jeżeli – to”. Model radzi sobie z danymi zarówno numerycznymi, jak i kategorycznymi, nie wymaga normalizacji oraz obsługuje brakujące wartości poprzez surrogate splits. Z kolei jego podatność na drobne fluktuacje danych wejściowych prowadzi do wysokiej wariancji, a proste drzewa mają ograniczoną dokładność względem algorytmów liniowych w zadaniach z dużą liczbą cech o słabej informacyjności. Sposobem złagodzenia tych problemów jest łączenie wielu drzew w lasy losowe lub boosting, kosztem większego zapotrzebowania na zasoby i utraty pełnej interpretowalności.

Na co uważać?

Przed przystąpieniem do treningu warto zadbać o równowagę klas, ponieważ w przeciwnym razie algorytm może faworyzować większość. Należy także monitorować głębokość drzewa, minimalną liczbę przykładów w węźle oraz stosować walidację krzyżową, aby ograniczyć nadmierne dopasowanie. W środowiskach regulowanych istotne jest utrzymanie logów z przebiegu przycinania, co ułatwi audyt.

Dodatkowe źródła

Więcej szczegółów można znaleźć w klasycznym podręczniku Classification and Regression Trees oraz w oryginalnym artykule Rossa Quinlana Induction of Decision Trees. Wprowadzenie praktyczne oferuje dokumentacja scikit-learn, zaś syntetyczną definicję prezentuje Wikipedia. Dla zainteresowanych nowszymi kierunkami rozwoju proponuję przegląd arXiv:2107.09058, który porównuje drzewa z metodami zespołowymi.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *