GPT 5.5 Codex i dziwna instrukcja w promptach systemowych. Dlaczego model ma nie mówić o goblinach?

W publicznym repozytorium OpenAI Codex na GitHubie internauci zauważyli nietypowy fragment instrukcji dla modelu GPT 5.5 używanego w Codexie. Chodzi o zdanie, które brzmi jak żart, ale znajduje się w prawdziwym pliku konfiguracyjnym narzędzia i to dwa razy!

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Po polsku: model nie powinien mówić o goblinach, gremlinach, szopach, trollach, ograch, gołębiach ani innych zwierzętach i stworzeniach, chyba że jest to absolutnie i jednoznacznie związane z pytaniem użytkownika.

Brzmi absurdalnie? Tak. Ale właśnie dlatego ten fragment zwrócił uwagę społeczności AI.

gpt-5.5 prompt for codex seems to have a duplicated line trying to get it to not talk about creatures?

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.…
— arb8020 (@arb8020) April 28, 2026

Link do repozytorium OpenAI Codex: https://github.com/openai/codex/blob/main/codex-rs/models-manager/models.json#L55.

Spis treści

O co dokładnie chodzi?

W pliku models.json w repozytorium OpenAI Codex znajduje się konfiguracja modeli dostępnych dla Codexa. Wśród nich widoczny jest gpt-5.5, opisany jako model typu frontier przeznaczony do złożonego kodowania, researchu i pracy agentowej. W tym samym obiekcie JSON zapisano długi zestaw instrukcji bazowych, czyli coś w rodzaju systemowego promptu dla Codexa.

To nie jest prompt wpisywany przez użytkownika. To instrukcja, która działa „pod spodem” i mówi modelowi, jak ma zachowywać się podczas pracy. Widać tam zalecenia dotyczące stylu odpowiedzi, pracy z kodem, raportowania postępów, korzystania z narzędzi i komunikacji z użytkownikiem.

Najciekawsze jest to, że linia o goblinach i innych stworzeniach pojawia się w dwóch miejscach. Pierwszy raz w części dotyczącej finalnej odpowiedzi. Drugi raz w sekcji dotyczącej aktualizacji pośrednich, czyli krótkich komunikatów wysyłanych użytkownikowi podczas pracy agenta.

To tłumaczy, dlaczego obserwatorzy nazwali to duplikatem. Technicznie zdanie rzeczywiście powtarza się dwa razy, ale w dwóch różnych kontekstach: raz dla odpowiedzi końcowej, raz dla komunikatów w trakcie pracy.

🦝🧌👹🐦 https://t.co/6clvQfpAmj
— ChatGPT (@ChatGPTapp) April 28, 2026

Dlaczego OpenAI miałoby wpisywać coś tak konkretnego?

Najbardziej prawdopodobne wyjaśnienie jest proste: Codex miał mieć bardziej ludzką, swobodną i czasem żartobliwą osobowość, ale zespół chciał ograniczyć przypadkowe metafory, żarty i memiczne wstawki w zadaniach programistycznych.

W tym samym promptcie pojawiają się instrukcje, aby model był ciepły, ciekawy, współpracujący i potrafił używać humoru wtedy, gdy pasuje to do sytuacji. Problem polega na tym, że modele językowe nie zawsze dobrze wyczuwają granicę między „lekko żywym stylem” a dziwnym teatrzykiem słownym. Jeżeli agent kodujący zamiast rzeczowo napisać „naprawiłem błąd walidacji formularza” zaczyna mówić, że „przegonił gremliny z kodu”, użytkownik może uznać to za infantylne albo rozpraszające.

Dlatego w instrukcjach pojawia się bardzo dosłowny zakaz. Nie „unikaj niepotrzebnych metafor”, ale konkretna lista: gobliny, gremliny, szopy, trolle, ogry, gołębie i inne stworzenia.

To wygląda komicznie, ale dobrze pokazuje, jak w praktyce buduje się zachowanie produktów AI. Bardzo często nie jest to elegancka, abstrakcyjna reguła. Czasami to seria ręcznych łatek wynikających z realnych obserwacji: model robił coś zbyt często, więc ktoś dopisał zakaz.

To nie jest błąd bezpieczeństwa, ale ciekawy wgląd w prompt engineering

Nie wygląda na to, żeby ta linia była poważnym problemem bezpieczeństwa. Nie ujawnia haseł, kluczy API ani prywatnych danych. Jest jednak ciekawa, bo pokazuje, jak bardzo zachowanie modelu zależy od instrukcji systemowych.

Dla zwykłego użytkownika AI prompt to pytanie wpisane w okno czatu. W praktyce model dostaje jednak więcej warstw instrukcji. Są instrukcje systemowe, ustawienia produktu, zasady narzędzi, kontekst zadania, historia rozmowy i dopiero na końcu pytanie użytkownika. O tym, czym jest prompt i jak steruje odpowiedzią modelu, pisaliśmy szerzej tutaj.

W przypadku Codexa ta warstwa jest szczególnie ważna, bo nie chodzi tylko o odpowiedź tekstową. Agent kodujący ma czytać pliki, rozumieć strukturę repozytorium, planować zmiany, uruchamiać komendy, informować użytkownika o postępach i finalnie podsumować, co zrobił. To wymaga znacznie bardziej rozbudowanych instrukcji niż zwykły chatbot.

Dlaczego społeczność AI się z tego śmieje?

Bo ta instrukcja brzmi jak fragment regulaminu z alternatywnego biura IT: „zakaz rozmów o goblinach, gremlinach i gołębiach, chyba że sprawa tego wymaga”. Jest w tym coś zabawnego, bo widzimy kontrast między zaawansowanym modelem GPT 5.5 a bardzo przyziemnym, wręcz dziwacznym zapisem w konfiguracji.

Takie znaleziska pokazują, że nawet najbardziej zaawansowane systemy AI są w dużej mierze kształtowane przez tekstowe instrukcje. Modele nie mają „charakteru” w ludzkim sensie. Mają zachowanie wynikające z treningu, dostrajania i promptów narzuconych przez produkt.

Jeżeli produkt ma być rzeczowy, trzeba to zapisać. Jeżeli ma nie przesadzać z metaforami, też trzeba to zapisać. A jeżeli model zbyt często ucieka w żarty o fantastycznych stworzeniach, najwyraźniej ktoś wpisuje wprost, żeby tego nie robił.