Anthropic poinformował, że wykrył i zablokował systematyczne próby kradzieży wiedzy ze swoich najnowszych modeli Claude. Chodzi o tzw. ataki destylacji czyli technikę, w której zewnętrzny podmiot masowo odpytuje cudzy model, żeby na podstawie jego odpowiedzi wytrenować własny, tańszy zamiennik. To coś jak podglądanie mistrza szachowego przez tysiące partii, a potem odtwarzanie jego stylu gry bez lat nauki.
Czym są ataki destylacji i dlaczego Anthropic bije na alarm
Destylacja modeli (ang. model distillation) to technika znana w środowisku badawczym od lat. W uproszczeniu polega na tym, że mniejszy, prostszy model uczy się naśladować odpowiedzi większego, potężniejszego systemu. Samo w sobie to legalne i powszechne narzędzie, firmy często destylują własne modele, żeby uzyskać lżejsze wersje nadające się do wdrożenia na słabszym sprzęcie. Problem pojawia się wtedy, gdy ktoś robi to z cudzym modelem, bez zgody jego twórcy.
Jak opisuje Anthropic w oficjalnym komunikacie na swojej stronie, firma zaobserwowała wzorce aktywności wskazujące na zorganizowane próby ekstrakcji wiedzy z modeli rodziny Claude. Atakujący wysyłali ogromne ilości starannie skonstruowanych zapytań — nie po to, by korzystać z odpowiedzi bezpośrednio, lecz by zebrać dane treningowe dla konkurencyjnych systemów. To trochę jak wynajęcie kogoś, kto przez miesiące zadaje pytania ekspertowi i skrupulatnie notuje każdą odpowiedź, żeby potem sprzedać te notatki jako własny kurs.
Kto zaatakował model Claude?
Choć Anthropic zazwyczaj zachowuje powściągliwość, tym razem wskazał konkretne podmioty. Za zorganizowanymi kampaniami stoją trzy czołowe chińskie laboratoria AI: DeepSeek, Moonshot AI oraz MiniMax. Co istotne, nie były to pojedyncze incydenty, lecz operacja na skalę przemysłową. Aby obejść zabezpieczenia i limity, atakujący stworzyli około 24 000 fałszywych kont, za pośrednictwem których wygenerowali ponad 16 milionów interakcji z modelem Claude.
Metoda ataku: Na czym polegała „kradzież inteligencji”?
Głównym narzędziem napastników była nielegalna destylacja modeli (illicit distillation). Proces ten polega na masowym zasypywaniu zaawansowanego modelu (nauczyciela) tysiącami pytań z różnych dziedzin od programowania po złożone rozumowanie logiczne. Odpowiedzi generowane przez Claude’a służyły następnie jako gotowy „materiał dydaktyczny” do trenowania własnych, mniejszych i tańszych modeli (uczniów).
Dzięki temu laboratoria mogły:
- Ominąć koszty: Zamiast wydawać setki milionów dolarów na selekcję danych i trening od zera, przejmowały gotowe zdolności wypracowane przez Anthropic.
- Skrócić czas: Proces, który normalnie zajmuje lata badań, został skrócony do tygodni dzięki „ściąganiu” od lidera rynku.
- Pominąć zabezpieczenia: Destylacja pozwala przejąć wiedzę modelu, ale często nie przenosi jego „etycznych hamulców”, co pozwala tworzyć potężne narzędzia pozbawione filtrów bezpieczeństwa.
Jak próbowano ukryć ataki?
Atakujący wykazali się dużą kreatywnością w unikaniu systemów detekcji Anthropic. Zastosowali kilka kluczowych taktyk maskujących:
- Rozproszenie ruchu (Sybil Attack): Wspomniane 24 tysiące kont pozwoliły rozbić gigantyczny wolumen zapytań na tysiące mniejszych strumieni. Dzięki temu aktywność pojedynczego konta mogła na pierwszy rzut oka wyglądać na naturalną.
- Wykorzystanie serwerów proxy: Aby ukryć fakt, że zapytania pochodzą z jednej lokalizacji (np. z serwerów laboratoriów w Chinach), napastnicy korzystali z rozbudowanych sieci proxy i usług VPN, maskując swoje rzeczywiste adresy IP.
- Naśladowanie ludzkich zachowań: Aby zmylić algorytmy wykrywające wzorce (pattern recognition), zapytania nie były wysyłane liniowo. DeepSeek starał się mieszać pytania służące do destylacji z zapytaniami, które mogłyby paść z ust zwykłego użytkownika. Zapytania były formułowane w sposób, który miał imitować realne zastosowania biznesowe lub edukacyjne, co utrudniało automatycznym klasyfikatorom odróżnienie bota od człowieka.
- Obchodzenie ograniczeń regionalnych: Ponieważ usługi Anthropic są ograniczone w niektórych regionach, laboratoria stosowały techniki maskowania geolokalizacji, aby udawać użytkowników z krajów objętych oficjalnym wsparciem.
Finalnie jednak systemy analityczne Anthropic wykryły anomalie w statystycznych wzorcach odpowiedzi i nietypowym pokryciu konkretnych dziedzin wiedzy, co doprowadziło do zablokowania całej operacji.
Jak Anthropic rozpoznaje i blokuje takie próby
Wykrycie ataku destylacji nie jest trywialne. Pojedyncze zapytanie wygląda normalnie dopiero analiza wzorców na dużą skalę pozwala wychwycić anomalie. Anthropic opisuje kilka sygnałów ostrzegawczych: nienaturalnie wysoki wolumen zapytań z jednego źródła, systematyczne pokrywanie określonych dziedzin wiedzy, zapytania sformułowane w sposób typowy dla generowania danych treningowych (np. żądanie odpowiedzi w ściśle określonym formacie) oraz wzorce aktywności niepasujące do żadnego normalnego zastosowania produktowego.
Firma wdrożyła wielowarstwowy system detekcji. Pierwsza warstwa to automatyczne klasyfikatory analizujące ruch API w czasie rzeczywistym. Druga to głębsza analiza behawioralna, algorytmy szukające korelacji między zapytaniami, które mogą wskazywać na systematyczną ekstrakcję. Trzecia warstwa to zespół ludzkich analityków, którzy weryfikują podejrzane przypadki przed podjęciem działań.
Co ważne, Anthropic nie tylko blokuje wykryte ataki, ale też modyfikuje odpowiedzi w sposób utrudniający destylację na przykład wprowadzając subtelne zmiany, które nie wpływają na użyteczność dla zwykłego użytkownika, ale obniżają jakość danych treningowych pozyskiwanych tą drogą. To sprytne podejście: zamiast budować wyższy mur, zatruwasz studnię.
Dlaczego kradzież wiedzy z modeli to rosnący problem
Wytrenowanie dużego modelu językowego kosztuje dziesiątki, czasem setki milionów dolarów. Potrzeba ogromnych zbiorów danych, tysięcy procesorów graficznych pracujących tygodniami i zespołów wysoko wykwalifikowanych inżynierów. Destylacja pozwala ominąć znaczną część tych kosztów. Atakujący może za ułamek ceny uzyskać model, który w wielu zadaniach osiąga 80–90% wydajności oryginału.
Problem ma wymiar nie tylko finansowy. Jak zauważa Anthropic, destylacja może przenosić nie tylko zdolności modelu, ale też omijać zabezpieczenia bezpieczeństwa. Model, który nauczył się odpowiadać na podstawie surowych outputów Claude’a, niekoniecznie dziedziczy mechanizmy odmowy odpowiedzi na niebezpieczne zapytania. To tak, jakby ktoś skopiował umiejętności chirurga, ale nie przysięgę Hipokratesa. Badacze z prac opublikowanych na arXiv wielokrotnie wskazywali, że destylowane modele mogą zachowywać się nieprzewidywalnie w scenariuszach brzegowych, właśnie dlatego, że brakuje im pełnego procesu alignment przeprowadzonego na oryginale.
Temat ten wiąże się bezpośrednio z szerszą dyskusją o bezpieczeństwie systemów AI i odpowiedzialnym rozwojem tej technologii. Ochrona własności intelektualnej modeli staje się jednym z kluczowych wyzwań branży.
Regulacje i przyszłość ochrony modeli AI
Prawne aspekty destylacji modeli są wciąż niejasne. Czy odpytywanie publicznego API i wykorzystywanie odpowiedzi do treningu to naruszenie praw autorskich? A może łamanie warunków użytkowania? Czy to coś bardziej zbliżonego do szpiegostwa przemysłowego? Odpowiedzi różnią się w zależności od jurysdykcji.
W Unii Europejskiej AI Act wprowadza pewne ramy, ale nie odnosi się wprost do problemu destylacji. W Stanach Zjednoczonych trwa debata o tym, czy istniejące prawo autorskie obejmuje outputy modeli AI. Anthropic — podobnie jak inne firmy — na razie polega głównie na zabezpieczeniach technicznych i zapisach w regulaminach korzystania z API.
Jest też wymiar czysto techniczny. Badacze pracują nad metodami watermarkingu — niewidzialnego znakowania odpowiedzi modelu, które pozwala później udowodnić, że konkurencyjny system był trenowany na skradzionych danych. To obiecujący kierunek, choć wciąż daleki od niezawodności. Inne podejścia obejmują celowe wprowadzanie kontrolowanych niedokładności w odpowiedziach API, które nie przeszkadzają użytkownikom końcowym, ale degradują jakość destylacji.
Co to oznacza dla użytkowników Claude’a
Dla przeciętnego użytkownika modeli Anthropic bezpośredni wpływ jest niewielki. Firma zapewnia, że mechanizmy obronne nie obniżają jakości odpowiedzi dla legalnych zastosowań. Mogą natomiast pojawić się dodatkowe ograniczenia dla użytkowników API na przykład limity szybkości zapytań lub bardziej restrykcyjna weryfikacja tożsamości.
Pośrednio sprawa ma jednak znaczenie dla każdego, komu zależy na bezpieczeństwie AI. Jeśli destylowane modele trafiają na rynek bez odpowiednich zabezpieczeń, mogą generować treści niebezpieczne lub wprowadzające w błąd, a użytkownicy końcowi nie będą nawet wiedzieli, że korzystają z nielegalnej kopii. To trochę jak kupowanie podróbki leku: opakowanie wygląda tak samo, ale nikt nie sprawdzał, co jest w środku.
Warto śledzić, jak inne firmy zareagują na ruch Anthropic. Jeśli destylacja stanie się powszechnie uznawanym zagrożeniem, możemy spodziewać się wspólnych standardów branżowych i nowych narzędzi ochrony.







