Claude Opus 4.7 debiutuje na szczycie benchmarków. Czy Anthropic zagrało zbyt zachowawczo?

Anthropic wypuściło swój najnowszy model językowy i od razu zajął pierwsze miejsce w niemal każdym liczącym się rankingu. Claude Opus 4.7 przewyższa konkurencję w kodowaniu, rozumowaniu matematycznym i długich zadaniach agentowych. A mimo to część komentatorów mówi: za mało, za późno. Skąd ten paradoks?

Spis treści

Co potrafi Claude Opus 4.7 i dlaczego wyniki robią wrażenie

Zacznijmy od liczb, bo to one wywołały największe poruszenie. W benchmarku SWE-bench Verified, który mierzy zdolność modelu do samodzielnego naprawiania błędów w rzeczywistych repozytoriach open-source, Opus 4.7 osiągnął wynik 72,3%. Dla porównania: poprzedni lider, GPT-5.4 od OpenAI, zatrzymał się na 69,1%. Różnica trzech punktów procentowych brzmi skromnie, ale w tej skali to duży postęp. Każdy kolejny punkt wymaga od modelu radzenia sobie z coraz bardziej złożonymi, wielo-plikowymi poprawkami, gdzie kontekst rozciąga się na tysiące linii kodu.

Na benchmarku GPQA Diamond, testującym wiedzę ekspercką z fizyki, chemii i biologii na poziomie doktoranckim, Opus 4.7 trafił 78,2% odpowiedzi. W testach matematycznych AIME 2025 wynik wyniósł 86,7%. Według niezależnej analizy opublikowanej przez Artificial Analysis, model wyprzedza konkurencję także pod względem jakości odpowiedzi w trybie konwersacyjnym, ocenianej metodą ELO na bazie ludzkich preferencji.

Opus 4.7 jest po prostu najmocniejszym publicznie dostępnym modelem na rynku w chwili premiery.

Architektura Glasswing – co kryje się pod maską

Anthropic po raz pierwszy uchyliło rąbka tajemnicy dotyczącej architektury swoich modeli, publikując stronę techniczną projektu Glasswing. Glasswing to wewnętrzna platforma Anthropic łącząca trening dużych modeli z mechanizmami bezpieczeństwa wbudowanymi na poziomie architektury, a nie dolepionymi post hoc. W praktyce oznacza to, że Opus 4.7 posiada warstwę nadzoru nazwaną Constitutional Guardrails, która działa równolegle z głównym procesem wnioskowania. Model nie tylko generuje odpowiedź, ale jednocześnie sprawdza ją pod kątem zgodności z zestawem zasad bezpieczeństwa.

Podwójna ścieżka przetwarzania zwiększa latencję. Opus 4.7 generuje pierwszy token średnio po 1,8 sekundy, podczas gdy GPT-5.4 potrzebuje 0,9 sekundy. Dla użytkownika czatującego z chatbotem AI to zauważalna różnica. Dla programisty uruchamiającego agenta, który przez trzy minuty analizuje repozytorium, już nie.

Mythos Preview i co Anthropic trzyma w zanadrzu

Razem z Opus 4.7 Anthropic zapowiedziało coś, co może okazać się ważniejsze od samego modelu. Mythos Preview to wewnętrzny projekt badawczy, którego fragmenty pokazano podczas prezentacji. Niewiele wiadomo na pewno. Wiemy, że Mythos ma być modelem multimodalnym nowej generacji, zdolnym do pracy z wideo, dźwiękiem i danymi sensorycznymi w jednym strumieniu wnioskowania.

Dario Amodei, CEO Anthropic, powiedział podczas briefingu prasowego: „Mythos to nasz sposób na pokazanie, że bezpieczeństwo i zdolności nie muszą być kompromisem”. Zdanie sugeruje, że Anthropic pracuje nad architekturą, w której mechanizmy bezpieczeństwa nie spowalniają modelu, lecz są integralną częścią jego mocy obliczeniowej.

Tu pojawia się kluczowe pytanie strategiczne. Czy Anthropic celowo ograniczyło Opus 4.7, żeby nie wystrzelać całej amunicji przed premierą Mythos? Wiele na to wskazuje.

Bezpieczeństwo jako strategia, nie ograniczenie

Anthropic od założenia pozycjonuje się jako firma, dla której bezpieczeństwo AI jest priorytetem, a nie dodatkiem. Firmę powołali w 2021 roku byli pracownicy OpenAI, w tym Dario i Daniela Amodei, właśnie z powodu różnic zdań co do tempa rozwoju bez odpowiednich zabezpieczeń. Ta filozofia przenika Opus 4.7.

Model przeszedł testy red-teamingowe prowadzone przez zewnętrzne organizacje, w tym METR (Model Evaluation and Threat Research). Wyniki pokazały znacząco niższą podatność na jailbreaking w porównaniu z poprzednimi wersjami. Anthropic opublikowało również zaktualizowany raport techniczny zawierający szczegółowe opisy testów bezpieczeństwa, w tym scenariusze autonomicznego działania agentowego.

Czy to zachowawczość? Zależy, kogo zapytasz. Jeśli miarą sukcesu jest wyłącznie pozycja w rankingu, Anthropic mogło pójść ostrzej, zmniejszając ograniczenia bezpieczeństwa i przyspieszając czas odpowiedzi. Ale to trochę tak, jakby oceniać producenta samochodu wyłącznie po prędkości maksymalnej, ignorując fakt, że jego pojazd ma najlepsze hamulce w klasie.

Co to oznacza dla rynku i użytkowników

Dla programistów Opus 4.7 to dziś najlepszy wybór do złożonych zadań kodowania, szczególnie tych wymagających zrozumienia dużych baz kodu i wielokrokowego rozumowania. Dla firm budujących produkty oparte o agentów AI model oferuje najwyższą niezawodność w długich sekwencjach działań, gdzie pojedynczy błąd w kroku piątym potrafi zepsuć cały wynik.

Dla zwykłych użytkowników różnica między Opus 4.7 a konkurencją będzie w codziennym użyciu niemal niezauważalna. Wszystkie topowe modele radzą sobie dobrze z podsumowywaniem, tłumaczeniem i odpowiadaniem na pytania. Prawdziwe różnice ujawniają się na krawędziach: w zadaniach naprawdę trudnych, wieloetapowych, wymagających precyzji i samokontroli.

Zachowawczość czy dalekowzroczność

Anthropic nie zagrało all-in. Firma wypuściła model, który jest najlepszy, ale nie przytłaczająco lepszy. Jednocześnie zapowiedziała Mythos, pokazała architekturę Glasswing i podkreśliła, że traktuje bezpieczeństwo jako fundament, nie hamulec. To strategia, która może się nie podobać tym, którzy chcą widzieć nokaut w pierwszej rundzie.

Ale historia technologii uczy, że firmy, które biegną najszybciej, nie zawsze dobiegają najdalej. Claude Opus 4.7 to model zbudowany z myślą o tym, żeby być nie tylko potężnym, ale też kontrolowalnym. W momencie, gdy sztuczna inteligencja coraz częściej podejmuje autonomiczne decyzje, wykonuje kod, zarządza infrastrukturą, obsługuje klientów bez nadzoru, ta cecha może okazać się ważniejsza niż kilka punktów procentowych w benchmarku.