Profesjonalna praca dużym modelem językowym (LLM) zaczyna się od jednego, pozornie prostego pytania: co dokładnie włożyć do okna kontekstu, aby uzyskać najlepszy efekt? W teorii nowe modele potrafią przyjąć ogromne ilości informacji (1M a nawet 2M tokenów), lecz w praktyce zbyt długi kontekst prowadzi do zjawiska „context rot” czyli stopniowego spadku trafności i precyzji odpowiedzi.

Zespół Anthropic opisuje ten problem bez ogródek: „Context is a critical but finite resource for AI agents… every new token depletes the attention budget” . Traktując kontekst jak walutę, każdą frazę musimy zainwestować mądrze. Ta inwestycja decyduje, czy agent podejmie trafną decyzję, czy też zagubi się w szumie informacji. W artykule przechodzimy od ogólnych założeń do konkretnych technik, pokazując, jak kompresja, pamięć zewnętrzna, sub-agenci i pobieranie just-in-time tworzą spójną strategię na czasy, gdy liczba tokenów nieuchronnie rośnie.
Dlaczego kontekst jest zasobem ograniczonym
Transformer, serce większości LLM-ów, tworzy n² połączeń uwagi między tokenami. Przy tysiącach/milionach tokenów liczba relacji eksploduje, a model dzieli swój budżet uwagi na coraz cieńsze warstwy. Nawet przy technikach skalowania okien kontekstowych (np. position interpolation) degradacja pozostaje. Z punktu widzenia biznesu oznacza to trzy praktyczne konsekwencje:
- spadek recall – agent pomija krytyczne fakty schowane w dalszej części historii;
- koszt czasu – generacja i przesył dużych promptów wydłuża pętlę decyzji;
- koszt finansowy – dostawcy API liczą tokeny, więc nadmiarowe dane podnoszą rachunek.
Stąd fundamentalna zasada inżynierii kontekstowej: najmniejszy zestaw tokenów o najwyższym sygnale. Wbrew intuicji nie chodzi o maksymalizację długości, lecz o maksymalizację gęstości istotnych informacji.
Od inżynierii promptów do inżynierii kontekstu
Wczesny hype skupiał się na „prompt engineering” czyli sztuce formułowania instrukcji. Teraz, gdy budujemy agentów wielo-krokowych, kluczowe staje się zarządzanie całością stanu: promptów systemowych, historii rozmów, zewnętrznych dokumentów, narzędzi (tool calls) i wyników poprzednich działań. Oznacza to, że prompt jest już tylko jednym z wielu elementów. Pojawiają się:
- kompresja historii – dynamiczne streszczanie przebiegu rozmowy w formie krótszych notatek;
- pamięć zewnętrzna agenta – trwały magazyn faktów, po który agent sięga w razie potrzeby;
- sub-agenci – wyspecjalizowane modele działające na własnym, znacznie mniejszym kontekście;
- retrieval just-in-time (RAG) – pobieranie fragmentów dokumentów tuż przed generacją odpowiedzi;
- projektowanie narzędzi – jasna specyfikacja funkcji, aby model nie zgadywał, lecz wywoływał w odpowiednim momencie.
Przesunięcie perspektywy z pojedynczego promptu na dynamiczny „strumień kontekstu” wymusza myślenie architektoniczne: jakie kanały danych są naprawdę potrzebne teraz, a które mogą poczekać.
Kluczowe strategie zarządzania kontekstem
Poniższe rekomendacje oparte są o sugestie przygotowane przez Anthropic dla Agentów AI.
Strategia | Co robi | Główne korzyści | Typowe pułapki |
---|---|---|---|
Kompresja historii | Streszcza całą przeszłą rozmowę do kilkuset tokenów | Utrzymuje kontekst w ramach budżetu, zachowując fakty | Zbyt agresywna kompresja może utracić niuanse, które okażą się później kluczowe |
Pamięć zewnętrzna | Zapisuje trwałe fakty w bazie wiedzy poza oknem kontekstu | Umożliwia długofalowe śledzenie decyzji i faktów | Ryzyko niespójności między pamięcią a bieżącym stanem |
Sub-agenci | Dzieli zadanie na mniejsze modele z własnym kontekstem | Równoległość, specjalizacja, redukcja szumu | Koszt koordynacji, złożoność debugowania |
Retrieval JIT | Pobiera fragmenty dokumentów „na żądanie” | Minimalizuje liczbę tokenów w promptach | Opóźnienie sieciowe, konieczność trafnego indeksu |
Projektowanie narzędzi | Definiuje funkcje i schematy danych w modelu | Redukuje „halucynacje”, ułatwia walidację | Przeprojektowanie jest kosztowne, gdy funkcje źle odwzorowują proces |
„Good context engineering means finding the smallest possible set of high-signal tokens that maximize the likelihood of some desired outcome”
Anthropic
Kompresja jest tu punktem wyjścia: regularnie „prasujemy” rozmowę do syntetycznego logu decyzji. Dla krytycznych projektów (np. obsługa klienta) proces ten można zautomatyzować zadaniem w schedulerze – agent co 10 wiadomości podsumowuje najważniejsze fakty i usuwa resztę. Pamięć zewnętrzna z kolei przypomina cache aplikacyjny: ma klucze (np. „profil użytkownika”) i wartości (dane). Sub-agenci świetnie sprawdzają się przy zadaniach typu wyszukiwanie + planowanie + egzekucja: każdy krok inny agent, a nadrzędny koordynator scala wyniki.
Najczęstsze kompromisy i jak ich unikać
- Zbyt obszerne prompty systemowe
Rozwlekłe instrukcje kłócą się z zasadą minimalizmu. Lepsze są deklaratywne reguły (np. „Jesteś botem wspierającym klienta, odpowiadaj po polsku, zachowaj styl formalny”). - Brak wersjonowania pamięci
Jeśli agent nadpisuje fakty bez historii, trudno rozwiązać konflikty. Wprowadź timestampy i mechanizm „most recent wins”. - Agresywna kompresja bez walidacji
Przed odrzuceniem starego tekstu uruchom szybki test: czy w streszczeniu pojawiają się kluczowe nazwy własne i numery? Jeśli nie, powtórz kompresję. - Sub-agenci bez kontraktów
Każdy agent powinien zwracać dane w ściśle określonym formacie (np. JSON Schema). Inaczej główny koordynator otrzymuje nieprzewidywalny strumień informacji. - Retrieval bez rankingów jakości
W RAG liczy się nie tylko trafność, lecz także świeżość i brak duplikatów. Dodaj ocenę (np. BM25+recency) i limituj top-k wyników.
Wnioski praktyczne dla zespołów
- Zacznij od mapy przepływu danych
Zanim napiszesz kod, narysuj diagram: skąd przychodzą dane, gdzie są przetwarzane, dokąd trafiają streszczenia. - Mierz i monitoruj budżet tokenów
Wprowadź liczniki tokenów dla każdego etapu. Gdy liczba przekroczy próg, uruchom kompresję lub czyszczenie pamięci. - Testuj strategie A/B
Porównaj stałe preloadowanie pełnych dokumentów z retrieval JIT. Wyniki mogą zaskoczyć; w projektach z dokumentami prawno-finansowymi retrieval często wygrywa. - Utrzymuj prostotę narzędzi
Lepiej kilka niewielkich funkcji o jednoznacznym przeznaczeniu niż monstrum obsługujące dziesiątki parametrów. - Automatyzuj walidację streszczeń
Krótkie testy integracyjne (np. „czy we wspomnieniu pojawia się ID sprawy?”) oszczędzą godziny debugowania.
Im bardziej złożone środowisko, tym łatwiej przekroczyć budżet uwagi modelu. Kompresja, pamięć i retrieval to narzędzia, które pozwalają utrzymać projekt w ryzach, ale działają tylko wtedy, gdy same nie wygenerują nowej warstwy chaosu. Dlatego podczas wdrożeń pytajmy nie „ile jeszcze tokenów zmieścimy?”, lecz „czy te tokeny realnie przybliżają nas do celu?”. Zasada minimalnego, lecz ważnego kontekstu to droga do sukcesu, poparta badaniami Anthropic oraz doświadczeniami wielu zespołów.