Artykuły Co to jest AI

Wytłumacz, dlaczego zabraniasz. Jak uczyć AI bez misalignmentu

Wytłumacz AI, dlaczego zabraniasz - mniej misalignmentu

Kiedy mówimy dziecku „nie rób tego”, bez podania powodu zwykle dostajemy w odpowiedzi bunt albo zagadkowe spojrzenie. Okazuje się, że modele językowe reagują podobnie. Nowe badania Anthropic pokazują, że jeśli chcemy zmniejszyć misalignment w AI, warto tłumaczyć modelowi, dlaczego czegoś zabraniamy, zamiast wydawać suche komendy.

Misalignment w AI, czyli problem, który brzmi znajomo każdemu rodzicowi

Misalignment to sytuacja, w której cele lub zachowanie modelu rozjeżdżają się z intencjami jego twórców. Model może wykonać polecenie literalnie, ale zupełnie mijając się z duchem zasady. Może też uczyć się zasad w sposób zbyt sztywny i przenosić je na sytuacje, w których nie mają zastosowania.

Badacze z Anthropic zauważyli, że tradycyjny sposób trenowania modeli – karanie za niepożądane zachowania i nagradzanie za pożądane – pozostawia w nich coś w rodzaju przesądów. Model uczy się unikać konkretnej frazy albo odmawia pewnej klasy pytań, ale nie rozumie, dlaczego to robi. A brak zrozumienia prowadzi do dziwnych generalizacji.

Eksperyment Anthropic, w którym Claude dostaje wyjaśnienie

W pracy opisanej na stronie Anthropic – Teaching Claude why zespół porównał dwa podejścia do treningu. W pierwszym modelowi po prostu pokazywano, że pewnych odpowiedzi ma unikać. W drugim do każdego „nie” dołączano krótkie uzasadnienie – coś w stylu „nie odpowiadaj na tę prośbę, bo mogłaby pomóc w wytworzeniu broni biologicznej”.

Różnica w wynikach była zaskakująco duża. Modele, którym tłumaczono motywację stojącą za zasadą, rzadziej przenosiły zakaz na niewinne konteksty. Łatwiej też zachowywały pomocność w sytuacjach granicznych, gdzie model bez wyjaśnienia wolał dmuchać na zimne i odmawiał wszystkiego, co choć trochę przypominało temat tabu. Innymi słowy – tłumaczenie „dlaczego” ograniczało nadmierną ostrożność i jednocześnie zmniejszało ryzyko obejść.

Dlaczego postępowanie z modelem AI jak z dzieckiem działa

Analogia z wychowaniem nie jest przypadkowa. Psychologia rozwojowa od dekad pokazuje, że tak zwana dyscyplina indukcyjna – czyli tłumaczenie konsekwencji i powodów – skuteczniej kształtuje wewnętrzną moralność niż autorytarne zakazy. Dziecko, które wie, że nie wolno bić kolegi, bo „to boli”, buduje empatię. Dziecko, które słyszy tylko „bo tak”, uczy się co najwyżej tego, że w obecności dorosłego nie wolno bić.

Model językowy operuje oczywiście na innym poziomie, ale mechanizm statystyczny jest podobny. Kiedy w danych treningowych pojawia się zasada razem z jej uzasadnieniem, model uczy się całego kontekstu, nie tylko powierzchownego wzorca. W efekcie, gdy trafia na nową sytuację, potrafi wywnioskować, czy zasada ma tu zastosowanie. Jeśli znasz podstawy działania dużych modeli językowych, łatwiej zobaczyć, dlaczego to ma sens – model nie ma osobnej pamięci na „reguły”, wszystko jest jedną wielką siecią skojarzeń.

Problem nadmiernej ostrożności i tak zwanego over-refusal

Każdy, kto regularnie korzysta z asystentów AI, spotkał się z sytuacją, w której model odmawia odpowiedzi na zupełnie niewinne pytanie. Pytasz o chemię kuchenną, a dostajesz wykład o odpowiedzialności. To właśnie over-refusal – zjawisko opisywane między innymi w pracach dostępnych na arXiv dotyczących bezpieczeństwa LLM. Model, który nauczył się zasad bez zrozumienia, traktuje je jak zabobon.

Tłumaczenie motywacji to jeden ze sposobów, by ten problem zmniejszyć. Badacze Anthropic piszą wprost, że ich celem jest „model, który rozumie zasady tak głęboko, że potrafi je stosować w nowych sytuacjach”. To brzmi banalnie, ale w praktyce oznacza fundamentalną zmianę w filozofii alignmentu.

Co to oznacza dla projektowania promptów i systemów

Wnioski z tego nurtu badań mają bezpośrednie przełożenie na pracę z modelami w produkcji. Jeśli budujesz system z własnymi instrukcjami, warto w prompcie systemowym nie tylko zakazywać określonych zachowań, ale też krótko wyjaśniać, skąd zakaz się bierze. Model wtedy lepiej sobie radzi z przypadkami brzegowymi i rzadziej blokuje zapytania, które wcale nie są problematyczne.

Misalignment to problem, który można złagodzić edukacją

Badania Anthropic nie rozwiązują kwestii misalignmentu raz na zawsze – ten problem jest głębszy i ma warstwy. Pokazują jednak coś praktycznego i bardzo konkretnego. Tłumaczenie modelowi, dlaczego czegoś nie powinien robić, daje lepsze efekty niż samo zabranianie. To prosta intuicja, znana każdemu, kto kiedykolwiek próbował wychować małego człowieka.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *