Apple opublikowało badanie, które wywołało niemałe poruszenie w świecie sztucznej inteligencji. Raport zatytułowany „The Illusion of Thinking” rzuca cień wątpliwości na entuzjastyczne wizje rozwoju AI, a zwłaszcza tzw. modeli rozumowania, które miały być kolejnym krokiem ku ogólnej inteligencji sztucznej (AGI).
Złudzenie myślenia. Co Apple chce nam powiedzieć o AI?
Zamiast potwierdzić postępy, publikacja pokazuje, że nawet najnowsze i najlepiej oceniane modele, takie jak Claude 3.7, Gemini Flash Thinking czy OpenAI o3, zawodzą w obliczu złożonych problemów logicznych. Co więcej, nie tylko nie rozwiązują trudniejszych zadań, ale wręcz się „poddają”.
Czy to oznacza, że sztuczna inteligencja, o której tyle się mówi, wcale nie „myśli”? Apple nie twierdzi, że AI jest bezużyteczna; przyznaje nawet jej ogromną skuteczność w zadaniach takich jak kodowanie czy przetwarzanie języka. Jednak w obszarze rozumowania sytuacja wygląda zupełnie inaczej. I to właśnie na tym polu gigant z Cupertino postanowił przyjrzeć się AI z nowej perspektywy.
Dlaczego Apple publikuje takie badanie właśnie teraz? Czy to próba odzyskania narracji w czasie, gdy firma wydaje się pozostawać w tyle za konkurencją w dziedzinie AI? A może sygnał, że czas przestać ślepo wierzyć w nieuchronny marsz ku AGI?
Jak testowano modele rozumowania?
Aby sprawdzić, jak naprawdę radzą sobie modele rozumowania (LRM – Large Reasoning Models), naukowcy z Apple sięgnęli po sprawdzone narzędzia: klasyczne łamigłówki logiczne. Nie chodziło o pisanie tekstów czy generowanie obrazków, lecz o zadania wymagające sekwencyjnego myślenia i planowania czyli umiejętności kluczowych dla „prawdziwej” inteligencji.
Klasyczne łamigłówki, czyli laboratorium dla AI
Testy obejmowały takie zadania jak:
- Wieża Hanoi – układanie krążków na trzech słupkach według określonych reguł, z rosnącą liczbą elementów,
- Problem przeprawy przez rzekę – znany dylemat logistyczny z lisem, kurą i workiem zboża,
- Układanki z przeskakiwaniem pionków – wymagające przemyślanej sekwencji ruchów,
- Budowanie wież z klocków w określonym porządku.
Choć te zadania mogą kojarzyć się z prostymi łamigłówkami z lekcji matematyki czy aplikacji mobilnych, są one jednocześnie doskonałym testem zdolności logicznych zarówno dla ludzi, jak i maszyn.
Od prostych do złożonych – punkt krytyczny modeli
Badacze zwiększali stopień trudności problemów, dodając kolejne elementy lub komplikując układ. Okazało się, że modele rozumowania działają dobrze przy zadaniach o średniej trudności. I tu często przewyższają tradycyjne modele językowe. Ale gdy tylko poziom złożoności rośnie powyżej pewnego progu, wyniki spadają dramatycznie. Aż do całkowitej porażki.
Najlepszym tego przykładem jest Wieża Hanoi. Gdy dodano piąty krążek, modele takie jak Claude 3.7 Sonnet czy DeepSeek R1 zaczęły się „gubić”. Jeszcze bardziej zaskakujące jest to, że nawet dodanie więcej zasobów obliczeniowych nie poprawiało wyników. Modele po prostu nie były w stanie poradzić sobie z rosnącym wyzwaniem.

Gdzie i dlaczego modele zawodzą?
Wyniki badań Apple pokazują, że im trudniejsze zadanie, tym gorzej radzą sobie modele rozumowania. Ale to, co najbardziej niepokoi, to nie tylko fakt, że modele popełniają błędy. Chodzi o coś głębszego – o mechanizm ich porażki.
Spadek skuteczności i punkt załamania
Badacze zaobserwowali charakterystyczny wzorzec działania. Mianowicie skuteczność modeli maleje stopniowo wraz ze wzrostem trudności zadania, aż w końcu osiąga punkt krytyczny. Jest to moment, w którym model całkowicie się „poddaje”. Przestaje próbować, nie kończy procesu rozumowania, a jego odpowiedzi stają się losowe lub całkowicie błędne.
To zjawisko Apple określa mianem „collapse” czyli załamania się procesu myślenia. Claude 3.7 Sonnet i DeepSeek R1 przestają rozwiązywać Wieżę Hanoi przy pięciu krążkach, mimo że z teoretycznego punktu widzenia, różnica między czterema a pięcioma nie powinna stanowić przepaści.
Mniej wysiłku, gdy jest trudniej
Co gorsza, analiza „tokenów myślenia” (liczby kroków obliczeniowych podejmowanych przez model) pokazuje coś paradoksalnego. Gdy problemy stają się trudniejsze, modele… zaczynają myśleć mniej. W momencie, gdy należałoby zwiększyć wysiłek, modele skracają swoje ścieżki decyzyjne i po prostu przestają analizować dane głębiej.
Zamiast próbować dłużej i intensywniej, wybierają najkrótszą drogę. Często prowadzącą donikąd.
Gotowe algorytmy? Też nie pomagają
Apple postanowiło sprawdzić jeszcze jedną możliwość. Co się stanie, gdy do modelu dołączymy instrukcję działania, gotowy algorytm rozwiązania problemu? W teorii wystarczyło go jedynie wykonać krok po kroku. Niestety modele nadal sobie nie radziły.
To wskazuje na fundamentalną barierę. Te systemy nie tyle rozumieją, co „dopasowują”. Działają świetnie, gdy mogą powtórzyć coś, co już widziały. Ale jeśli trzeba zrozumieć i wyciągnąć logiczne wnioski w nowej sytuacji, to pojawia się poważny problem.
Złudzenie myślenia czy ograniczenia wzorców?
Publikacja Apple uderza w samo serce entuzjazmu wokół rozwoju sztucznej inteligencji. Pokazuje bowiem, że to, co niektórzy uznają za „rozumowanie” maszyn, może być w rzeczywistości tylko bardzo zaawansowanym dopasowywaniem wzorców. I że iluzja myślenia może być wyjątkowo przekonująca, ale pozostaje iluzją.
Myślenie czy statystyka?
Duże modele językowe, w tym LRM-y, opierają się na analizie ogromnych ilości danych i przewidywaniu najbardziej prawdopodobnej odpowiedzi. To mechanizm, który świetnie sprawdza się w generowaniu tekstu, odpowiadaniu na pytania, a nawet w pisaniu kodu. Ale logika i planowanie to inna liga. Apple twierdzi, że modele potrafią tylko symulować proces myślowy.
„Złudzenie myślenia” – termin, który może zostać z nami na dłużej
Tytuł artykułu naukowców z Apple „The Illusion of Thinking” nie jest tylko prowokacją. To poważne ostrzeżenie: nie dajmy się zwieść wrażeniu, że AI „myśli” tylko dlatego, że dobrze wypada w dialogu czy potrafi napisać esej.
Badacze pokazują, że nawet gdy modele mają wszystkie potrzebne informacje i algorytmy, wciąż mogą nie potrafić ich zastosować. A więc nie tyle „myślą źle”, co nie myślą w ogóle, przynajmniej nie w sposób, jaki rozumiemy jako logiczne wnioskowanie.
Imitacja rozumowania ≠ rozumowanie
To rozróżnienie ma kluczowe znaczenie. Jeśli modele AI jedynie odtwarzają wzorce z danych treningowych, nie są zdolne do prawdziwej generalizacji i adaptacji. Wtedy każda zmiana kontekstu czy zwiększenie złożoności sprawia, że ich „inteligencja” się rozpada.
Nie oznacza to, że AI jest bezużyteczna, ale że nie możemy traktować jej jako zastępstwa dla ludzkiego myślenia, zwłaszcza w zadaniach wymagających kreatywności, planowania i elastyczności.
Czy Apple ma tu własny interes?
Nie da się ukryć, że publikacja Apple pojawiła się w bardzo strategicznym momencie, tuż przed WWDC 2025, w czasie gdy firma mierzy się z zarzutami o pozostawanie w tyle w wyścigu AI. Nic dziwnego, że część ekspertów i komentatorów zarzuca Apple, że badanie ma charakter PR-owy i służy bardziej osłabieniu pozycji konkurencji niż rzetelnej analizie problemu.
Sceptycy: to zasłona dymna
Krytycy nie przebierają w słowach, mówiąc wprost: Apple powinno skupić się na ulepszaniu Siri, zamiast krytykować innych. W ich ocenie raport to forma zasłony dymnej, która ma przykryć fakt, że Apple dopiero nadrabia zaległości w dziedzinie generatywnej AI.
Rzeczywiście, w porównaniu do OpenAI, Google czy Meta, Apple długo unikało otwartego wejścia w obszar dużych modeli językowych. Dopiero w 2025 roku firma ogłosiła system Apple Intelligence i umożliwiła deweloperom korzystanie z własnych modeli dzięki Foundation Models Framework.
Realizm: dwie prawdy mogą być jednocześnie prawdziwe
Jednak, jak zauważa wielu analityków, krytyczne intencje nie przekreślają wartości badania. Michael G. Bennett z University of Illinois Chicago zauważa, że niezależnie od motywacji, warto przyjrzeć się wnioskom Apple. Jego zdaniem ignorowanie takich ostrzeżeń mogłoby mieć poważne konsekwencje. Zwłaszcza jeśli chodzi o zaufanie do AI w zastosowaniach krytycznych.
To, że badanie jest wygodne dla Apple, nie oznacza jeszcze, że nie jest rzetelne. Wręcz przeciwnie, może stanowić cenną przeciwwagę dla dominującej narracji o nieograniczonych możliwościach AI.
Inwestycje rosną, ale zwrot nadal niepewny
W tle tej dyskusji toczy się większa gra: największe firmy świata, Amazon, Meta, Google, Microsoft, inwestują miliardy dolarów w rozwój AI. Ale mimo tej gigantycznej skali, zwrot z inwestycji wciąż pozostaje niepewny. Rynki pełne są obietnic, ale czy rozwój modeli nie stanie niedługo pod ścianą nie do przeskoczenia?

Co dalej z AI?
Raport Apple wywołał burzę, bo dotyka jednej z najważniejszych i najbardziej emocjonujących kwestii w debacie o przyszłości sztucznej inteligencji: czy maszyny mogą naprawdę myśleć? I jeśli nie dziś, to czy kiedykolwiek będą mogły?
Granice obecnych modeli
Wyniki badania pokazują, że obecne modele, nawet te najbardziej zaawansowane, mają poważne ograniczenia. W kontekście AGI, czyli sztucznej inteligencji ogólnej, która miałaby dorównać lub przewyższyć człowieka w różnych dziedzinach, to sygnał ostrzegawczy. Nie jesteśmy jeszcze tak blisko, jak chcieliby entuzjaści.
Co więcej, to przypomnienie, że skuteczność w jednym obszarze (np. generowanie tekstu czy pisanie kodu) nie oznacza automatycznie zdolności do myślenia rozumianego jako rozwiązywanie złożonych problemów.
Wartość badań Apple
Niezależnie od PR-owego kontekstu publikacji, Apple wnosi do dyskusji coś bardzo cennego: realizm i krytyczne spojrzenie. W świecie, gdzie hype często przesłania realne możliwości technologii, głos przypominający o ograniczeniach jest potrzebny. Bo jeśli chcemy rozwijać AI odpowiedzialnie, musimy znać jej słabe punkty, a nie tylko ekscytować się pokazami możliwości.
AGI – marzenie czy miraż?
Niektórzy nazwą to pesymizmem, inni realizmem. Ale jedno jest pewne: jeśli naprawdę zależy nam na zbudowaniu maszyn, które myślą, nie wystarczy zwiększać liczbę parametrów i mocy obliczeniowej. Trzeba zrozumieć, czym jest rozumowanie, i stworzyć systemy, które potrafią coś więcej niż tylko odtwarzać znane wzorce.
Na razie, jak pokazuje raport Apple, mamy raczej złudzenie myślenia, a nie jego rzeczywistą formę.
Przeczytaj także: Model collapse czyli AI na drodze ku autodestrukcji