Łukasz Kaiser: współtwórca Transformera i architekt ery GPT

Łukasz Kaiser jest jednym z tych badaczy, przy których trzeba od razu oddzielić dwie rzeczy: realny wkład od pokusy prostego mitu. Nie „stworzył sam” dzisiejszych LLM-ów, ale był współautorem pracy Attention Is All You Need, czyli jednego z najważniejszych tekstów w historii współczesnej sztucznej inteligencji. To wystarczy, żeby jego nazwisko traktować jako część fundamentu ery GPT.

Jego historia pokazuje, że w AI największe przełomy często zaczynają się od architektury, która początkowo wygląda jak specjalistyczna decyzja techniczna. Transformer z 2017 roku stał się później wspólnym językiem modeli językowych, multimodalnych, kodowych i wielu systemów generatywnych. Kaiser był jednym z autorów tego przełomu, a później pracował również przy projektach OpenAI.

Spis treści

Dlaczego Łukasz Kaiser jest ważny dla AI?

Jeśli dzisiejsze modele językowe mają jeden techniczny punkt zwrotny, to jest nim Transformer. Praca Attention Is All You Need pokazała, że mechanizm uwagi może zastąpić wiele elementów wcześniejszych architektur sekwencyjnych i lepiej skalować uczenie na dużych zbiorach danych. To nie była tylko poprawka do tłumaczenia maszynowego. To była zmiana, która otworzyła drogę do modeli trenowanych na ogromnej ilości tekstu i później dostrajanych do wielu zadań.

Kaiser jest ważny, bo był jedną z osób współtworzących tę infrastrukturę intelektualną. Wpływ Transformera widać w GPT, Gemini, Claude, Llama i w wielu modelach, które użytkownicy znają dziś jako chatboty, asystentów programistycznych albo narzędzia do pracy z obrazem, dźwiękiem i kodem.

Kim jest?

Łukasz Kaiser jest polskim informatykiem i badaczem uczenia maszynowego. Pracował między innymi w Google Brain, gdzie powstawały badania nad Transformerem, modelami sekwencyjnymi i narzędziami takimi jak Tensor2Tensor. Później związał się z OpenAI, ale jego znaczenie dla AI zaczyna się wyraźnie wcześniej: przy pytaniu, jak zbudować architekturę, która skaluje się lepiej niż wcześniejsze RNN-y i LSTM-y.

W jego biografii najważniejszy nie jest jednak sam zestaw afiliacji, lecz rodzaj problemów, którymi się zajmował: jak budować modele, które lepiej uczą się zależności w danych, skalują się obliczeniowo i dają się wykorzystać w praktycznych systemach generatywnych.

Konkretny wkład w rozwój AI

Najbardziej znanym wkładem Kaisera jest współautorstwo Transformera. Wcześniejsze modele sekwencyjne, zwłaszcza RNN-y i LSTM-y, miały ograniczenia związane z przetwarzaniem danych krok po kroku. Transformer pozwolił mocniej wykorzystać równoległość obliczeń i lepiej modelować relacje między elementami sekwencji. W praktyce to jedna z przyczyn, dla których późniejsze modele mogły rosnąć do skali znanej z LLM-ów.

Jego późniejsza obecność w OpenAI łączy ten fundament architektoniczny z erą produktów, ale nie powinna przysłaniać wcześniejszego wkładu. Dla historii AI ważniejszy jest fakt, że Transformer zmienił sposób pracy z sekwencjami, uwagą i równoległym treningiem. Udział w późniejszych zespołach modeli frontier, także tych wymienianych przy GPT-4, jest kolejnym rozdziałem tej historii, a nie jej początkiem.

Najważniejsze projekty, decyzje lub idee

Attention Is All You Need: praca z 2017 roku, która wprowadziła architekturę Transformer do centrum deep learningu.
Google Brain: środowisko badawcze, w którym powstawały jedne z najważniejszych prac nad modelami sekwencyjnymi.
Tensor2Tensor i modele sekwencyjne: etap prac nad narzędziami i architekturami, które poprzedzały masową erę LLM-ów.
OpenAI: późniejszy udział w zespołach rozwijających modele frontier i systemy nastawione na rozumowanie.
Skalowanie modeli: praktyczna idea, że architektura musi działać nie tylko elegancko na papierze, ale też efektywnie na ogromnej infrastrukturze.

Kontrowersje, ograniczenia i ryzyka

Najważniejsze ograniczenie tej historii jest proste: Transformer był dziełem zespołowym. Współautorzy pracy mieli różne role, a późniejszy sukces architektury wynikał także z danych, mocy obliczeniowej, optymalizacji, bibliotek i ogromnej pracy wielu laboratoriów. Przypisywanie całej ery GPT jednej osobie byłoby złą historią techniki.

Drugi problem dotyczy skutków samego skalowania. Transformer pomógł zbudować modele, które są imponujące, ale kosztowne, energochłonne i trudne do pełnego audytu. Dzisiejsza debata o AI dotyczy więc nie tylko tego, kto wymyślił architekturę, ale też tego, kto kontroluje infrastrukturę, dane i dostęp do modeli powstających na jej podstawie.

Co to oznacza dla użytkowników i firm?

Dla użytkowników wkład Kaisera jest niewidoczny, ale codzienny. Gdy model streszcza dokument, pisze kod, tłumaczy tekst albo analizuje obraz z opisem, korzysta z linii rozwoju, w której Transformer stał się podstawowym narzędziem. To przykład technologii infrastrukturalnej: nie widać jej w interfejsie, ale bez niej interfejs wyglądałby inaczej.

Dla firm najważniejsza lekcja brzmi: przewagi w AI często rodzą się w warstwie, której nie widać w reklamach produktów. Architektura, dane, trening, ewaluacja i integracja z procesami biznesowymi decydują o tym, czy model będzie realnym narzędziem, czy tylko ciekawostką do demonstracji.

Dlaczego warto obserwować go dalej?

Kaisera warto obserwować jako przedstawiciela grupy badaczy, którzy rozumieją AI od poziomu architektury po systemy wielkiej skali. Kolejne ważne pytanie brzmi, czy era po Transformerze przyniesie równie mocny przełom, czy raczej serię usprawnień: lepsze rozumowanie, dłuższy kontekst, multimodalność, wydajniejsze trenowanie i modele bardziej odporne na błędy.

To część serii Ludzie, którzy kształtują AI, w której opisujemy osoby realnie wpływające na rozwój sztucznej inteligencji.