W piątek (5 września 2025 roku) na platformie OpenRouter pojawiły się dwa zamaskowane stealth modele językowe: Sonoma Dusk Alpha oraz Sonoma Sky Alpha. Oba oferują rekordowe okno kontekstu – aż 2 miliony tokenów, obsługują wejścia obrazowe oraz umożliwiają równoległe wywoływanie narzędzi. W komunikatach oficjalnych podkreślono, że są to modele udostępnione w fazie alpha, całkowicie bezpłatne, lecz wszystkie prompty i odpowiedzi są logowane przez ich twórców.
Ten ruch od razu wzbudził zainteresowanie społeczności, bo dotychczas tak długi kontekst oferował jedynie Google w modelu Gemini 1.5 Pro. OpenRouter nie podał producenta, opisując Sonomy jako „cloaked models” – a więc świadomie zamaskowane. To doprowadziło do spekulacji: kto stoi za „Sonoma Alpha”?
Grok czy Gemini? Spór o tożsamość
Społeczność AI niemal natychmiast podzieliła się na dwa obozy.
- Hipoteza Grok (xAI) – wielu użytkowników zauważyło podobieństwa w stylu odpowiedzi do wcześniejszych modeli Grok 4.0/4.1. W niektórych testach model miał wręcz odpowiadać: „Jestem Grok”. Takie sygnały wzmocniły przekonanie, że Sonoma to tak naprawdę kolejne iteracje Groka, zamaskowane dla celów testowych.
- Hipoteza Gemini (Google) – część testerów przypomina jednak, że to Google jako pierwsze zaoferowało 2M tokenów w Gemini 1.5 Pro. Ich zdaniem to bardziej logiczne źródło. Styl odpowiedzi także bywa wskazywany jako „bliższy Gemini” – bardziej spójny w analizie, szczególnie w zadaniach kodowych.
Na dziś brak potwierdzenia. OpenRouter jasno komunikuje jedynie: „This is a cloaked model provided to the community to gather feedback”. Ostatecznie więc mamy do czynienia z dwiema realnymi hipotezami – i dopóki dostawca nie zostanie ujawniony, spór pozostaje otwarty.
Czym są „stealth models”?
Stealth models (na OpenRouter oznaczane też jako cloaked models) to modele językowe udostępniane w formie testów społecznościowych. Charakteryzują się kilkoma cechami:
- Brak jawnego dostawcy – użytkownik widzi nazwę neutralną (np. Sonoma Dusk Alpha), ale nie wiadomo oficjalnie, kto stoi za modelem.
- Bezpłatny dostęp – zwykle w ramach fazy alpha lub beta można korzystać z nich bez opłat.
- Logowanie danych – wszystkie prompty i odpowiedzi są zapisywane przez twórcę modelu w celu poprawy jakości.
- Cel: feedback i eksperymenty – stealth models pozwalają testować nowe funkcje (np. rekordowe okno kontekstu, multimodalność) w realnych warunkach, zanim model zostanie oficjalnie zaprezentowany pod własną marką.
W praktyce to „zamaskowane” wersje komercyjnych modeli, które po okresie testów często zostają przemianowane na oficjalne i trafiają do płatnej oferty.
Pierwsze opinie i testy społeczności
Dzięki darmowemu dostępowi setki osób zaczęły testować Sonomy w praktyce. Opinie są mieszane, ale generalnie pozytywne.
- Sky > Dusk – wariant Sky Alpha postrzegany jest jako lepszy w trudniejszych zadaniach, bardziej „myślący” i planujący odpowiedzi. Dusk Alpha działa szybciej, ale bywa bardziej powierzchowny.
- Kodowanie – część użytkowników zauważa, że Gemini 2.5 Pro radzi sobie lepiej w generowaniu kodu, a Dusk w tej dziedzinie nie imponuje. Inni testujący chwalą Sky za solidniejsze rozumowanie.
- Jailbreaki – modele okazują się bardziej „uległe” niż GPT-4 czy Claude. Popularne metody jailbreaków działają na nich skutecznie, co jedni postrzegają jako zaletę (mniej cenzury), a inni jako potencjalne ryzyko.
- Styl odpowiedzi – odpowiedzi bywają luźne, z humorem, co pasuje do charakterystyki Groka, ale nie kłóci się też z ideą eksperymentów Google nad bardziej „ludzkimi” tonami AI.
Kontekst 2 milionów tokenów – praktyczna rewolucja?
2M tokenów to mniej więcej równowartość kilku powieści lub dużego repozytorium kodu. Dla użytkowników oznacza to możliwość:
- wrzucenia całego projektu i poproszenia modelu o znalezienie błędu,
- analizy wieloczęściowej dokumentacji bez dzielenia jej na fragmenty,
- prowadzenia długich rozmów z pamięcią „ciągłą”, obejmującą całą historię sesji.
Społeczność podkreśla jednak, że sam rozmiar kontekstu nie gwarantuje jakości. Problemem bywa tzw. context decay – model może gubić informacje z odległych fragmentów promptu. Google deklaruje, że Gemini osiąga >99% skuteczności w retrievalu przy 2M. Jak wypadnie Sonoma? Na to pytanie odpowiedzą dopiero systematyczne testy – dziś mamy głównie anegdoty, w których raz modele błyskawicznie odnajdują „igłę w stogu siana”, a innym razem błądzą mimo ogromnej pamięci.
Porównanie z innymi modelami
Na tle konkurencji Sonoma prezentuje się imponująco pod kątem samej specyfikacji:
| Model | Kontekst | Modalność | Tool calling | Charakterystyka |
|---|---|---|---|---|
| Sonoma Dusk Alpha | 2M | Tekst + obraz | Tak (równoległe) | Szybszy, mniej „głębokiego” rozumowania |
| Sonoma Sky Alpha | 2M | Tekst + obraz | Tak (równoległe) | Lepszy w rozumowaniu, ale wolniejszy |
| Gemini 1.5 Pro | 2M | Tekst, obraz, audio, wideo | Tak | Oficjalnie potwierdzony 2M, świetny multimodalny |
| GPT-4 | 8k–32k | Tekst (+ obraz w Vision) | Tak | Wysoka jakość odpowiedzi, krótszy kontekst |
| Claude 2/3 | ~100k | Tekst | Tak | Bardzo mocny w streszczeniach i długim tekście |
Widać wyraźnie, że Sonoma Dusk/Sky i Gemini 1.5 Pro tworzą dziś ligę 2M tokenów – segment, którego OpenAI i Anthropic jeszcze nie dogoniły.


