Andrej Karpathy opublikował narzędzie open source o nazwie autoresearch. Jest to skrypt, który samodzielnie przeprowadza eksperymenty badawcze nad modelami językowymi, iteruje nad hiperparametrami i zapisuje wyniki. Autoresearch Karpathy to w praktyce zautomatyzowana pętla badawcza: definiujesz problem, puszczasz program i wracasz do gotowych logów z eksperymentów. Brzmi jak asystent laboratoryjny, który nie potrzebuje kawy i nie narzeka na godziny nadliczbowe.
Czym dokładnie jest autoresearch Karpathy
Projekt autoresearch możesz znaleźć na GitHubie Karpathy’ego. Jego rdzeń jest zaskakująco prosty: to skrypt w Pythonie, który korzysta z dużego modelu językowego (LLM) jako „mózgu badawczego”. Model analizuje dotychczasowe wyniki eksperymentów, proponuje następne kroki zmiany architektury, hiperparametrów, danych treningowych, a potem automatycznie uruchamia kolejny eksperyment. Cykl się powtarza. Każda iteracja generuje raport, wykres strat i podsumowanie, co zadziałało, a co nie.
Karpathy zaprojektował to narzędzie wokół swojego innego projektu o nazwie nanochat, lekkiego frameworka do trenowania małych modeli konwersacyjnych. Nanochat daje kontrolowane środowisko: model jest na tyle niewielki, że trening trwa minuty zamiast dni, a jednocześnie wystarczająco złożony, żeby eksperymenty miały sens. Autoresearch wykorzystuje to jako piaskownicę — próbuje różnych konfiguracji nanochat i mierzy, która wypada najlepiej.
Jak to działa od środka
Mechanizm przypomina rozmowę z samym sobą, tyle że po jednej stronie siedzi LLM z dostępem do terminala, a po drugiej — wyniki treningów. Na początku autoresearch dostaje „seed” — punkt wyjścia, bazową konfigurację modelu. Potem LLM przegląda logi treningowe, analizuje krzywe strat, porównuje metryki i formułuje hipotezę: „może warto zwiększyć liczbę warstw attention” albo „spróbujmy mniejszego learning rate z cosine schedule”. Hipoteza zamienia się w kod. Kod się wykonuje. Wyniki wracają do LLM-a. I tak w kółko.
Karpathy opisał to na platformie X jako eksperyment w „automatyzacji pętli badawczej”, gdzie LLM pełni rolę badacza-juniora — podejmuje decyzje, ale w ramach jasno zdefiniowanego środowiska.
Jak uruchomić autoresearch
Wymagania są stosunkowo przystępne, choć potrzebujesz GPU. Karpathy testował to na pojedynczej karcie — nie musisz mieć klastra, wystarczy jedna porządna karta graficzna z odpowiednią ilością VRAM. Kroki wyglądają tak: klonujesz repozytorium z GitHuba, instalujesz zależności (głównie PyTorch i kilka bibliotek pomocniczych), konfigurujesz klucz API do modelu językowego, który będzie „myślał” za Ciebie — może to być API OpenAI, Anthropic lub inny dostawca obsługiwany przez skrypt — i uruchamiasz główny plik.
Konfiguracja wymaga edycji kilku parametrów: ile iteracji ma wykonać pętla, jakie metryki śledzić, jaki budżet obliczeniowy przyznać na pojedynczy eksperyment. Całość jest napisana czytelnie, co nie dziwi — Karpathy słynie z pedagogicznego podejścia do kodu. Jeśli potrafisz uruchomić trening modelu w PyTorch i masz doświadczenie z modelami językowymi, poradzisz sobie w kwadrans.
Warto pamiętać o kosztach API. Każda iteracja to zapytanie do LLM-a — przy kilkudziesięciu cyklach rachunek może urosnąć. Dla oszczędnych istnieje opcja użycia lokalnego modelu, choć wtedy jakość „rozumowania” badawczego będzie zależeć od wielkości i zdolności tego modelu.
Filozofia stojąca za projektem
Karpathy od lat popularyzuje ideę, że najlepszy sposób na naukę to budowanie od zera. Jego wcześniejsze projekty — nanoGPT, minbpe, nanochat — to minimalistyczne implementacje, które pokazują istotę mechanizmu bez warstw abstrakcji. Autoresearch wpisuje się w ten nurt, ale dodaje nowy wymiar: zamiast uczyć ludzi budować modele, uczy maszyny eksperymentować z nimi.
Nie chodzi tu o zastąpienie badaczy. Chodzi o automatyzację żmudnej części pracy — tej, w której sprawdzasz dwadzieścia kombinacji hiperparametrów, zapisujesz wyniki w arkuszu i próbujesz nie zgubić wątku o trzeciej w nocy. Autoresearch robi to systematyczniej i bez zmęczenia. Badacz nadal definiuje przestrzeń poszukiwań, ocenia sensowność wyników i podejmuje strategiczne decyzje. Ale rutynowe pętle spadają na maszynę.
Komu to się przyda
Najbardziej oczywista grupa to badacze akademiccy i inżynierowie ML pracujący nad małymi i średnimi modelami. Jeśli eksperymentujesz z architekturami transformerów, testujesz nowe techniki tokenizacji albo szukasz optymalnych parametrów dla specyficznego datasetu — autoresearch może zaoszczędzić godziny ręcznego iterowania. To szczególnie cenne, gdy masz ograniczone zasoby obliczeniowe i każdy eksperyment musi być przemyślany.
Druga grupa to osoby uczące się głębokiego uczenia. Obserwowanie, jak LLM podejmuje decyzje badawcze — jakie hipotezy stawia, jakie zmiany proponuje, jak interpretuje wyniki — to samo w sobie wartościowa lekcja. Autoresearch pokazuje wzorce myślenia eksperymentalnego w formie, którą można prześledzić krok po kroku w logach.
Trzecia, mniej oczywista grupa, to zespoły produktowe, które chcą szybko prototypować małe modele do konkretnych zadań. Zamiast zatrudniać osobnego inżyniera do strojenia hiperparametrów, można puścić autoresearch na noc i rano przejrzeć raport z kilkudziesięciu eksperymentów. To nie zastąpi eksperta, ale przyspieszy wczesne fazy projektu.






