Wyjaśnić niewyjaśnialne. Problem z XAI

Sztuczna inteligencja coraz częściej trafia do obszarów, w których stawka jest wysoka. Mowa nie tylko o rekomendacjach filmów czy reklam, ale też o medycynie, finansach, rekrutacji, ubezpieczeniach czy systemach wspierających decyzje administracyjne. Im ważniejsze zastosowanie, tym częściej pojawia się to samo pytanie: na jakiej podstawie model podjął taką decyzję?

To właśnie z tej potrzeby wyrosło XAI, czyli Explainable Artificial Intelligence — nurt, który ma sprawić, że działanie modeli uczenia maszynowego będzie bardziej zrozumiałe dla człowieka. W teorii brzmi to jak idealna odpowiedź na problem „czarnej skrzynki”. Skoro model podejmuje istotne decyzje, powinien umieć je wyjaśnić. A jeśli nie potrafi, to przynajmniej powinni potrafić to zrobić badacze i inżynierowie.

Autorzy artykułu „Explainable AI needs formalization” pokazują jednak, że sytuacja jest znacznie bardziej skomplikowana. Ich główna teza jest mocna: dzisiejsze XAI często nie tyle wyjaśnia działanie modeli, ile daje pozór wyjaśnienia. Co gorsza, te pozory bywają bardzo przekonujące.

Spis treści

Czym właściwie jest XAI?

Pod wspólną etykietą XAI kryje się wiele metod, ale jedna z najpopularniejszych grup to techniki przypisujące „ważność” poszczególnym cechom wejściowym. Taki system ma odpowiedzieć na pytanie, które elementy danych były najbardziej istotne dla predykcji modelu.

W najprostszym ujęciu wygląda to tak: model przewiduje wynik, a metoda XAI wskazuje, które cechy najbardziej wpłynęły na tę decyzję. W przypadku modelu medycznego mogą to być wiek pacjenta, wyniki badań czy obecność określonych objawów. W przypadku rozpoznawania obrazu — konkretne fragmenty zdjęcia. W analizie tekstu — wybrane słowa lub frazy.

Globalne i lokalne wyjaśnienia

Autorzy przypominają, że istnieją dwa podstawowe typy wyjaśnień:

1) Globalne wyjaśnienia. Opisują model jako całość. Mówią, które cechy są ogólnie ważne dla działania systemu.

2) Lokalne wyjaśnienia. Dotyczą pojedynczej decyzji modelu. Odpowiadają na pytanie, dlaczego właśnie ten konkretny przypadek został oceniony w taki, a nie inny sposób.

W praktyce oba typy są bardzo kuszące. Globalne wyjaśnienia obiecują lepsze zrozumienie modelu, a lokalne mają pomagać ekspertom, użytkownikom i regulatorom ocenić, czy konkretna decyzja AI była rozsądna. Problem polega na tym, że to, co wygląda na sensowne wyjaśnienie, nie musi być poprawnym wyjaśnieniem.

Obietnica XAI jest większa niż jego obecne możliwości

Popularność XAI bierze się z kilku obietnic. Po pierwsze, ma pomagać w wykrywaniu błędów modeli i danych. Jeśli model podejmuje decyzję na podstawie czegoś absurdalnego albo niepożądanego, dobrze byłoby to zauważyć.

Po drugie, XAI ma wspierać odkrycia naukowe. Skoro model wykrywa złożone zależności w danych, być może jego „wyjaśnienia” podpowiedzą badaczom nowe hipotezy.

Po trzecie, ma wskazywać cele interwencji. Jeśli model ocenia, że klient nie dostanie kredytu albo pacjent jest zagrożony ciężkim przebiegiem choroby, to chcielibyśmy wiedzieć, co można zmienić, żeby poprawić sytuację.

Autorzy tekstu argumentują jednak, że współczesne metody XAI bardzo często nie dostarczają informacji wystarczająco wiarygodnych, by spełniać te cele. A to oznacza, że narzędzia, które mają budować zaufanie do AI, mogą w niektórych sytuacjach prowadzić do błędnych wniosków.

Gdzie tkwi problem?

Model może wskazywać coś ważnego, co wcale nie jest związane z celem

To najważniejsza myśl całego artykułu. Popularne metody XAI potrafią przypisywać wysoką ważność cechom, które nie mają związku z przewidywanym wynikiem. Innymi słowy: model lub metoda wyjaśniania może wskazać coś jako istotne, choć dana cecha sama w sobie niczego nie mówi o tym, co próbujemy przewidzieć.

Brzmi paradoksalnie, ale właśnie ten paradoks jest osią argumentacji autorów. Wyjaśniają oni, że wiele współczesnych metod XAI nie odróżnia dwóch różnych rzeczy:

cechy, która rzeczywiście niesie informację o celu predykcji,
cechy, która pomaga modelowi technicznie poprawić predykcję, choć sama nie jest z celem powiązana.

To rozróżnienie okazuje się kluczowe.

Zmienne tłumiące, czyli bohater drugiego planu, który myli wszystkich

Autorzy dużo miejsca poświęcają tak zwanym zmiennym tłumiącym (suppressor variables). To cechy, które same nie są statystycznie związane z przewidywanym wynikiem, ale pomagają modelowi lepiej wykorzystać inne informacje.

Najprościej mówiąc: taka zmienna nie mówi modelowi, co przewidzieć, ale pomaga mu lepiej odfiltrować szum i przez to trafniej przewidywać.

Intuicyjny przykład

Wyobraźmy sobie, że chcemy przewidzieć ryzyko choroby na podstawie ciśnienia krwi. Wiek sam w sobie może nie być bezpośrednio związany z rozpatrywanym wynikiem w danym zadaniu, ale wpływa na typowy poziom ciśnienia. Model może więc używać wieku nie po to, by „wnioskować o chorobie”, lecz po to, by lepiej zinterpretować ciśnienie na tle naturalnych różnic między pacjentami.

W takiej sytuacji wiek pomaga modelowi, ale nie dlatego, że niesie własną informację o celu. Pomaga raczej usunąć zakłócenie.

Z perspektywy wielu metod XAI taka cecha może jednak wyglądać na bardzo ważną. I tu zaczyna się problem: użytkownik widzi „ważność” i interpretuje ją jako „ta cecha naprawdę ma znaczenie dla wyniku”. Tymczasem to może być fałsz.

Dlaczego to podważa sens wielu popularnych wyjaśnień?

Autorzy wprowadzają pojęcie, które nazywają statistical association property (SAP). W uproszczeniu chodzi o następujący warunek: jeśli metoda przypisuje cesze istotną ważność, to ta cecha powinna być rzeczywiście statystycznie związana z przewidywanym celem.

To brzmi jak zdrowy rozsądek. Jeśli metoda mówi nam, że coś jest ważne, oczekujemy, że to „coś” rzeczywiście ma związek z wynikiem. Autorzy pokazują jednak, że wiele popularnych metod tego warunku nie spełnia.

Wśród technik, które według przywoływanych analiz mogą przypisywać ważność zmiennym tłumiącym, znajdują się znane i szeroko używane podejścia, takie jak metody gradientowe, LRP, SHAP, LIME, integrated gradients, a także niektóre wyjaśnienia kontrfaktyczne.

To nie znaczy, że te narzędzia są zawsze bezwartościowe. Znaczy natomiast, że ich wyniki bywają interpretowane zbyt szeroko. Użytkownicy często zakładają, że skoro metoda coś podświetliła albo wysoko oceniła, to odkryła prawdziwy czynnik wpływający na wynik. Tymczasem mogła jedynie wykryć element technicznie wykorzystywany przez model do redukcji szumu.

Co z tego wynika w praktyce?

Konsekwencje nie są akademickim drobiazgiem. Według autorów problem dotyka kilku najczęściej przywoływanych zastosowań XAI.

Diagnostyka modeli i danych

Jedna z najpopularniejszych obietnic XAI brzmi: dzięki wyjaśnieniom sprawdzimy, czy model podejmuje decyzje z sensownych powodów.

To kusząca wizja. Radiolog chciałby zobaczyć, że model wykrywający raka zwraca uwagę na obszary tkanki rzeczywiście związane z nowotworem. Specjalista od HR chciałby upewnić się, że model nie kieruje się płcią czy pochodzeniem etnicznym. Inżynier danych chciałby wykryć ukryte artefakty, na przykład znak wodny na obrazach, który przypadkowo koreluje z etykietą.

Autorzy ostrzegają jednak, że jeśli metoda XAI nie odróżnia cech rzeczywiście związanych z celem od zmiennych tłumiących, to takie wnioski stają się niepewne. Wysoka ważność przypisana chronionej cesze nie musi oznaczać, że model „dyskryminuje” z jej powodu. Ale równie dobrze nie pozwala tego wykluczyć. Wyjaśnienie przestaje więc być wiarygodnym narzędziem kontroli jakości.

Odkrycia naukowe

W wielu dziedzinach pojawia się nadzieja, że modele uczenia maszynowego znajdą złożone zależności, których człowiek sam by nie zauważył. XAI miałoby wtedy pełnić rolę mostu między predykcją a naukowym zrozumieniem.

Autorzy studzą ten entuzjazm. Jeśli metoda wyjaśniania wskazuje także cechy niezwiązane z celem, to badacz może uznać za obiecujący trop coś, co w rzeczywistości nie opisuje mechanizmu badanego zjawiska. To grozi tworzeniem hipotez opartych na błędnych przesłankach.

Innymi słowy: model może działać dobrze, ale jego „wyjaśnienie” może prowadzić naukowca na manowce.

Wskazywanie interwencji

Jeszcze bardziej problematyczne staje się to wtedy, gdy XAI ma podpowiadać, co należy zmienić, by uzyskać inny wynik. W literaturze nazywa się to czasem algorithmic recourse. Na przykład: co klient powinien poprawić, by dostać kredyt? Co w danych pacjenta należałoby zmienić, by model ocenił jego rokowania lepiej?

Autorzy podkreślają, że nawet jeśli zmiana jakiejś cechy wpłynie na wynik modelu, nie oznacza to jeszcze, że analogiczna zmiana wpłynie na rzeczywistość. Model może reagować na cechę, która nie jest przyczyną zjawiska, tylko elementem pomocniczym w przetwarzaniu sygnału.

To bardzo ważne rozróżnienie. Można zmienić predykcję modelu bez zmiany realnego stanu świata. A jeśli ktoś potraktuje taką podpowiedź jako praktyczną rekomendację, skutki mogą być poważne.

Głębszy kłopot: XAI często nie rozwiązuje jasno zdefiniowanego problemu

Według autorów źródłem tych trudności nie jest wyłącznie to, że niektóre algorytmy są niedoskonałe. Problem jest bardziej fundamentalny: cała dziedzina XAI zbyt często rozwijała się bez precyzyjnego określenia, czym właściwie ma być poprawne wyjaśnienie.

W praktyce wyglądało to często tak: najpierw powstaje metoda, a dopiero potem próbuje się pokazać, że nadaje się ona do różnych zastosowań. Autorzy nazywają to podejściem algorithm-first. Ich zdaniem taki porządek odwraca logikę pracy naukowej.

Najpierw powinno się zadać pytanie:

jaki problem chcemy rozwiązać,
jakiej informacji potrzebuje użytkownik,
po czym poznamy, że wyjaśnienie jest poprawne.

Dopiero potem powinno się projektować metodę.

Tymczasem w wielu przypadkach sam algorytm staje się nieformalną definicją tego, czym jest „ważność cechy”. To prowadzi do błędnego koła: metoda jest uznawana za właściwą, bo daje jakieś wyjaśnienia, a wyjaśnienia uznaje się za poprawne, bo pochodzą z danej metody.

Dlaczego same aksjomaty i intuicje nie wystarczą?

W badaniach nad XAI pojawiały się różne aksjomaty, na przykład dotyczące czułości czy zgodności wyjaśnień z modelem. Autorzy nie twierdzą, że takie własności są bezużyteczne. Problem polega jednak na tym, że są to raczej warunki techniczne niż odpowiedź na pytanie, czy wyjaśnienie jest poprawne dla określonego celu.

Podobnie jest z często używanym pojęciem „faithfulness”, czyli wierności wyjaśnienia wobec modelu. Na pierwszy rzut oka brzmi to przekonująco: jeśli usunięcie cechy uznanej za ważną pogarsza działanie modelu, to może wyjaśnienie jest trafne.

Autorzy pokazują jednak, że to także bywa złudne. Usunięcie zmiennej tłumiącej również może pogorszyć działanie modelu, mimo że ta zmienna nie niesie informacji o celu. Taki test potwierdza więc jedynie, że model z czegoś korzysta, ale nie wyjaśnia jeszcze, jaką rolę ta cecha odgrywa.

XAI zbyt często ignoruje rozkład danych i strukturę przyczynową

To jeden z najmocniejszych punktów artykułu. Modelu nie da się sensownie interpretować w oderwaniu od danych, na których został nauczony. Ta sama waga przypisana cesze może znaczyć coś zupełnie innego w zależności od tego, jak cechy są ze sobą powiązane.

Autorzy podkreślają, że wiele metod XAI wprost lub pośrednio zakłada niezależność cech. To wygodne uproszczenie, ale w realnych danych bardzo często fałszywe. Cechy bywają skorelowane, splątane przyczynowo, obciążone wspólnym szumem albo działają względem siebie kompensacyjnie.

A właśnie w takich warunkach rodzą się błędne interpretacje. Model nie tylko „zbiera sygnał”, ale także aktywnie usuwa zakłócenia. Jeśli metoda wyjaśniania tego nie uwzględnia, łatwo pomylić mechanizm denoisingu z prawdziwym źródłem informacji o celu.

Nawet „interpretowalne” modele nie rozwiązują sprawy

W debacie o AI często pojawia się prosty kontrargument: skoro złożone sieci neuronowe są trudne do wyjaśnienia, to może trzeba używać prostszych modeli, takich jak regresja liniowa, drzewa decyzyjne czy modele addytywne.

Autorzy nie negują, że prostsze modele bywają wygodniejsze w analizie. Ale zwracają uwagę, że to nadal nie rozwiązuje sedna problemu. Nawet model liniowy może przypisać niezerową wagę zmiennej tłumiącej. Sama prostota architektury nie gwarantuje więc jednoznacznej interpretacji.

To ważna korekta popularnego mitu. Spór nie przebiega wyłącznie między „czarną skrzynką” a „szklanym pudełkiem”. Chodzi raczej o to, że żaden model nie interpretuje się sam z siebie, jeśli nie rozumiemy struktury danych, w których został osadzony.

Dlaczego walidacja XAI jest dziś tak trudna?

Autorzy są krytyczni również wobec sposobów oceniania metod XAI. Ich zdaniem pole ma tu poważny problem metodologiczny.

Za mało jasnych kryteriów poprawności

W wielu badaniach mierzy się stabilność wyjaśnień, ich odporność na zakłócenia albo zgodność z intuicją użytkowników. To wszystko może mieć znaczenie, ale nie zastępuje pytania, czy wyjaśnienie jest po prostu prawdziwe względem celu, który ma realizować.

Dane rzeczywiste rzadko dają „ground truth”

Na prawdziwych danych zwykle nie wiemy, jakie wyjaśnienie byłoby poprawne. Dlatego łatwo wpaść w pułapkę ocen pozornych: mierzymy to, co da się zmierzyć, zamiast tego, co naprawdę powinno być mierzone.

Ludzkie sądy też nie wystarczą

Eksperci są ważni, ale nie są nieomylni. Mogą odrzucić poprawne wyjaśnienie, jeśli model odkrył zależność nieznaną człowiekowi. Mogą też zaakceptować błędne wyjaśnienie, jeśli brzmi ono wiarygodnie i pasuje do intuicji. Autorzy przywołują badania pokazujące, że ludzie potrafią ufać rekomendacjom AI niezależnie od ich realnej poprawności, a same wyjaśnienia nie zawsze zwiększają jakość współpracy człowieka z systemem.

To bardzo niewygodny wniosek: wyjaśnienie może zwiększać poczucie zrozumienia, nie zwiększając faktycznego zrozumienia.

Co proponują autorzy zamiast tego?

Krytyka w artykule jest ostra, ale nie kończy się na diagnozie. Autorzy proponują zmianę podejścia: zamiast rozwijać XAI metodami „najpierw algorytm, potem uzasadnienie”, trzeba przejść do modelu problem-first, czyli podejścia opartego na jasno zdefiniowanych potrzebach i formalnych kryteriach.

Proponowana ścieżka obejmuje sześć kroków.

Ustalenie, jakiej informacji naprawdę potrzebują interesariusze

To punkt wyjścia. Innych odpowiedzi potrzebuje regulator, innych lekarz, innych inżynier budujący model. Nie istnieje jedno wyjaśnienie dobre dla wszystkich.

Formalne zdefiniowanie problemu XAI

Potrzebna jest ścisła odpowiedź na pytanie, co ma znaczyć poprawne wyjaśnienie w danym zastosowaniu. Czy chodzi o cechy statystycznie związane z celem? O interwencje zmieniające wynik modelu? O przyczyny zjawiska w świecie rzeczywistym? To nie są tożsame rzeczy.

Projektowanie metod pod konkretny problem

Dopiero po ustaleniu celu należy budować algorytm. Nie odwrotnie.

Analiza teoretyczna

Trzeba sprawdzać, czy metoda spełnia formalne wymagania i w jakich warunkach działa poprawnie.

Walidacja empiryczna na danych z „ground truth”

Autorzy mocno podkreślają znaczenie danych syntetycznych lub kontrolowanych, w których wiadomo z góry, jakie wyjaśnienie powinno być poprawne. Tylko wtedy da się sensownie testować metody XAI.

Dalsze ulepszanie jakości

Dopiero po przejściu wcześniejszych etapów warto optymalizować odporność, stabilność, fairnes czy sposób prezentacji wyjaśnień użytkownikowi.

Po co syntetyczne dane, skoro świat jest prawdziwy?

Dla wielu osób może to brzmieć paradoksalnie: jeśli chcemy badać realne problemy, po co sztuczne dane?

Odpowiedź autorów jest prosta. Na danych rzeczywistych bardzo często nie znamy „poprawnej odpowiedzi” dla samego wyjaśnienia. Na danych syntetycznych da się stworzyć kontrolowane warunki, w których wiadomo, które cechy są naprawdę związane z celem, które są tłumiące, a które są tylko szumem. To pozwala sprawdzić, czy metoda XAI faktycznie działa tak, jak deklaruje.

Oczywiście takie benchmarki nie oddadzą całego bogactwa świata. Ale mogą wykrywać konkretne klasy błędów i obalać zbyt mocne twierdzenia na temat użyteczności metod.

Czy to oznacza, że XAI jest bez sensu?

Nie. I warto to jasno powiedzieć. Autorzy nie twierdzą, że wyjaśnialna sztuczna inteligencja powinna zostać porzucona. Ich stanowisko jest bardziej wymagające i, paradoksalnie, bardziej konstruktywne.

XAI ma sens tylko wtedy, gdy przestaniemy traktować je jako worek atrakcyjnych intuicji, a zaczniemy jak dojrzałą dziedzinę naukową. To oznacza potrzebę formalizacji, testowalnych kryteriów poprawności, lepszych benchmarków i większej ostrożności w interpretacji wyników.

Innymi słowy: problemem nie jest sama idea wyjaśnialności, tylko to, że zbyt często przypisywano jej możliwości, których obecne metody jeszcze nie mają.

Nie każde wyjaśnienie naprawdę wyjaśnia

Tekst Haufe’a i współautorów wpisuje się w coraz silniejszy nurt krytyczny wobec uproszczonego myślenia o XAI. Jego wartość polega na tym, że nie zatrzymuje się na ogólnym stwierdzeniu „to wszystko jest trudne”. Autorzy pokazują konkretny mechanizm błędu: przypisywanie ważności cechom, które nie są związane z celem predykcji. A potem wyprowadzają z tego szerokie konsekwencje dla diagnostyki modeli, badań naukowych i praktycznych interwencji.

To cenna lekcja także poza samym XAI. W świecie AI bardzo łatwo pomylić przekonujące uzasadnienie z rzeczywistym zrozumieniem. Im bardziej narzędzia stają się efektowne wizualnie i intuicyjne w odbiorze, tym większa pokusa, by uznać je za bardziej wiarygodne, niż są w rzeczywistości.

Najważniejszy wniosek z artykułu można streścić tak: nie wystarczy, że metoda XAI wskazuje coś jako ważne. Trzeba jeszcze wiedzieć, co dokładnie oznacza ta ważność i czy odpowiada ona pytaniu, które naprawdę chcemy zadać.

Dzisiejsze XAI często obiecuje więcej, niż potrafi dostarczyć. Może tworzyć wyjaśnienia, które brzmią sensownie, ale nie nadają się do wykrywania błędów modeli, odkrywania mechanizmów naukowych czy wskazywania realnych celów interwencji. Główną przyczyną jest brak formalnych definicji problemów i brak jasnych kryteriów poprawności wyjaśnień.

To jednak nie musi być koniec historii. Autorzy przekonują, że przyszłość XAI nie leży w mnożeniu kolejnych efektownych algorytmów, lecz w spokojnej, rygorystycznej pracy nad tym, jakie pytania naprawdę zadajemy modelom i jak rozpoznać poprawną odpowiedź.

Dopiero wtedy sztuczna inteligencja zacznie nie tylko przewidywać, ale też naprawdę coś wyjaśniać.