Modele językowe sztucznej inteligencji mają tendencję do generowania nieprawdziwych informacji, które brzmią przekonująco. OpenAI opublikowało nowe badania, które wyjaśniają, dlaczego modele językowe halucynują oraz argumentują, że problem ten wynika ze standardowych procedur treningowych i ewaluacyjnych, które nagradzają zgadywanie zamiast przyznawania się do niepewności.
Czym są halucynacje w modelach językowych
Halucynacje to prawdopodobne, ale fałszywe stwierdzenia generowane przez modele językowe. Kiedy zespół badaczy zapytał popularnego chatbota o tytuł rozprawy doktorskiej Adama Taumana Kalaia (jednego z autorów badania), otrzymali trzy różne odpowiedzi – wszystkie błędne. Następnie zapytali o jego datę urodzin i otrzymali trzy różne daty – znowu wszystkie nieprawidłowe.
Problem ten nie ogranicza się tylko do prostych faktów. Nawet zaawansowane modele mogą halucynować, pewnie podając błędne odpowiedzi zamiast przyznać się do niepewności. Co ciekawe, najnowsze modele rozumowania OpenAI, takie jak o3 i o4-mini, halucynują częściej niż starsze modele – o3 halucynował w odpowiedzi na 33% pytań w teście PersonQA, a o4-mini aż w 48% przypadków.
Matematyczne podstawy halucynacji
Adam Tauman Kalai jest informatykiem specjalizującym się w sztucznej inteligencji i pracuje w OpenAI. Wraz z zespołem, w którym znalazł się także Santosh Vempala, Distinguished Professor w School of Computer Science na Georgia Institute of Technology, opracował teoretyczne wyjaśnienie mechanizmu powstawania halucynacji.
Modele językowe uczą się najpierw poprzez pre-training – proces przewidywania następnego słowa w ogromnych ilościach tekstu. W przeciwieństwie do tradycyjnych problemów uczenia maszynowego, nie ma tu etykiet „prawda/fałsz” przypisanych do każdego stwierdzenia. Model widzi tylko pozytywne przykłady płynnego języka i musi aproksymować ogólny rozkład. Szczególnie trudno jest odróżnić prawidłowe stwierdzenia od nieprawidłowych, gdy nie ma żadnych przykładów oznaczonych jako nieprawidłowe.
Kluczowe odkrycie badaczy polega na tym, że halucynacje są przewidywalnym rezultatem statystycznych mechanizmów uczenia, a nie tajemniczą usterką techniczną. Według badaczy, modele językowe halucynują, ponieważ funkcjonują jak studenci zdający egzaminy – są nagradzane za zgadywanie, gdy są niepewne, zamiast za przyznanie się do niewiedzy.
Problem z obecnymi metodami oceny
Główną przyczyną utrzymywania się halucynacji jest sposób, w jaki oceniane są modele AI. Halucynacje utrzymują się częściowo dlatego, że obecne metody ewaluacji ustawiają niewłaściwe zachęty. Chociaż same ewaluacje nie powodują bezpośrednio halucynacji, większość z nich mierzy wydajność modelu w sposób, który zachęca do zgadywania, a nie do uczciwości w kwestii niepewności.
Można to porównać do testu wielokrotnego wyboru. Jeśli nie znasz odpowiedzi, ale zgadujesz, możesz mieć szczęście i odpowiedzieć poprawnie. Pozostawienie pustego pola gwarantuje zero punktów. W ten sam sposób, gdy modele są oceniane tylko na podstawie dokładności – procentu pytań, na które odpowiadają dokładnie poprawnie – są zachęcane do zgadywania zamiast mówienia „nie wiem”.
Większość popularnych ewaluacji stosuje ocenianie binarne. Dlatego dodatkowe ewaluacje halucynacji mogą nie wystarczyć, gdy główne ewaluacje karzą za uczciwe raportowanie pewności i niepewności. Nawet idealna ewaluacja halucynacji i idealna metodologia post-treningu, dające uczciwe raporty o niepewności, mogą zostać zagłuszone przez gorsze wyniki w zdecydowanej większości istniejących ewaluacji.
Rozwiązanie: zmiana systemu oceniania
Istnieje proste rozwiązanie. Należy karać pewne siebie błędy bardziej niż niepewność i przyznawać częściowe punkty za odpowiednie wyrażenia niepewności. Ten pomysł nie jest nowy. Niektóre standaryzowane testy od dawna stosują wersje ujemnego punktowania za błędne odpowiedzi lub częściowe punkty za pozostawienie pytań pustych, aby zniechęcić do ślepego zgadywania.
Przepis OpenAI na redukcję halucynacji AI jest zwodniczo prosty – wystarczy przeprojektować tablice wyników ewaluacji. Zamiast traktować dokładność jako jedyną miarę wydajności, należy karać pewne siebie błędy bardziej niż niezdolność do odpowiedzi. Przyznawać częściowe punkty za niepewność.
Badacze proponują włączenie celów pewności do istniejących głównych ewaluacji. Na przykład popularna ewaluacja SWE-bench, która obejmuje binarne ocenianie poprawek oprogramowania, mogłaby zostać zmodyfikowana. Włączenie celów pewności do ustalonych ewaluacji, już używanych, zmniejsza karę za odpowiednie wyrażenia niepewności. Może to zwiększyć skuteczność ewaluacji specyficznych dla halucynacji. Z wyraźnymi celami pewności istnieje jedno zachowanie, które jest jednocześnie optymalne dla wszystkich celów – wyprowadzanie „nie wiem” wśród przykładów, gdzie prawdopodobieństwo poprawności jest większe niż cel.
Praktyczne konsekwencje dla rozwoju AI
Kluczowy wniosek jest inny niż w poprzednich badaniach. Nie wystarczy dodać kilka nowych testów świadomych niepewności na boku. Powszechnie używane ewaluacje oparte na dokładności muszą zostać zaktualizowane, tak aby ich punktacja zniechęcała do zgadywania. Jeśli główne tablice wyników będą nadal nagradzać szczęśliwe domysły, modele będą nadal uczyć się zgadywać.
Jeśli OpenAI i inni odniosą sukces w przeprojektowaniu ewaluacji, aby nagradzać pokorę, powinniśmy oczekiwać, że modele będą częściej mówić „nie wiem”. Na początku będzie to odczuwalne – być może nawet frustrujące. Ale w kontekstach wysokiego ryzyka, takich jak opieka zdrowotna lub porady prawne, model, który przyznaje się do niepewności, jest znacznie bezpieczniejszy niż ten, który wymyśla odpowiedzi.
Dlaczego halucynacje są trudne do wyeliminowania
Paradoksalnie, halucynacje są nie tylko wadą, ale także cechą AI. Jak wyjaśnia Sohrob Kazerounian, badacz AI w Vectra AI: „Wszystko, co generuje model językowy, jest halucynacją. Tylko niektóre z tych halucynacji są prawdziwe”. Gdyby AI generowała tylko dosłowne wyniki, które widziała podczas treningu, cała sztuczna inteligencja sprowadziłaby się do ogromnego problemu wyszukiwania. Można by tylko generować kod komputerowy, który został już napisany wcześniej, znajdować białka i molekuły, których właściwości zostały już zbadane i opisane, oraz odpowiadać na pytania domowe, które zostały już wcześniej zadane. Nie można by jednak poprosić modelu językowego o napisanie tekstów piosenek dla albumu koncepcyjnego skupionego na osobliwości AI, łączącego styl liryczny Snoop Dogga i Boba Dylana. W efekcie modele językowe i systemy AI, które je zasilają, muszą halucynować, aby tworzyć, a nie tylko podawać istniejące informacje.
Wpływ na przyszłość modeli językowych
Naprawienie tablic wyników może poszerzyć adopcję technik redukcji halucynacji, zarówno nowo opracowanych, jak i tych z wcześniejszych badań. Załóżmy, że Model A jest wyrównanym modelem, który poprawnie sygnalizuje niepewność i nigdy nie halucynuje. Niech Model B będzie podobny do Modelu A, z wyjątkiem tego, że nigdy nie wskazuje niepewności i zawsze „zgaduje”, gdy jest niepewny. Model B będzie lepszy od A przy punktacji 0-1, będącej podstawą większości obecnych benchmarków. To tworzy „epidemię” karania niepewności i wstrzymywania się od odpowiedzi. Liczne główne ewaluacje muszą zostać dostosowane, aby przestać karać za wstrzymanie się od odpowiedzi w przypadku niepewności.
Jeśli skalowanie modeli rozumowania rzeczywiście będzie nadal pogarszać halucynacje, poszukiwanie rozwiązania stanie się jeszcze bardziej pilne. OpenAI twierdzi, że „rozwiązywanie halucynacji we wszystkich naszych modelach jest ciągłym obszarem badań i nieustannie pracujemy nad poprawą ich dokładności i niezawodności”.


