Aktualności

Nowy najlepszy na świecie model AI – Gemini 3

Grok 3 najlepszy na świecie model AI LLM

Jeśli mrugnęliście, mogliście przegapić zmianę lidera. Branża AI nie zwalnia nawet na moment. Jeszcze wczoraj na łamach aioai.pl pisałem o tym, jak Grok 4.1 od xAI zdominował rankingi, stając się nowym wyznacznikiem jakości. Cóż, Elon Musk nie nacieszył się tym tytułem zbyt długo. Google właśnie weszło „całe na biało” z Gemini 3 i zrobiło coś, co wydawało się niemożliwe – zdetronizowało wszystkich.

Spójrzmy prawdzie w oczy: to, co dzieje się w tym tygodniu, to absolutne szaleństwo. Google oficjalnie potwierdziło premierę na swoim blogu, ale prawdziwym testem nie są deklaracje marketingowe, a „ślepe testy” użytkowników. I tutaj mamy bombę.

LLM Arena: Mamy nowego lidera

Dla tych, którzy śledzą branżę, LLMARENA to ostateczna wyrocznia. To nie są statyczne testy, pod które można się „wyuczyć”. To tysiące prawdziwych ludzi oceniających odpowiedzi modeli w ciemno.

Spójrzcie na zrzut ekranu, który właśnie obiega sieć. To historyczny moment:

  1. 🥇 Gemini-3-pro – Wynik: 1501
  2. 🥈 Grok-4.1-thinking – Wynik: 1484
  3. 🥉 Grok-4.1 – Wynik: 1465

Gemini 3 Pro jako pierwszy model przebił psychologiczną barierę 1500 punktów Elo. Zepchnął najnowsze modele Groka na drugie i trzecie miejsce, a Claude 3.5 Sonnet i GPT-4.5 spadły jeszcze niżej. To nokaut. Google wróciło na szczyt i to w stylu, który nie pozostawia złudzeń.

Benchmarki: Nokaut w pierwszej rundzie

Przyjrzyjmy się twardym danym z testów, bo liczby w tym przypadku mówią same za siebie. (Co badają poszczególne testu dowiesz się z tego artykułu: Testowanie AI: Kluczowe metody i benchmarki)

BenchmarkNotesGemini 3 ProGemini 2.5 ProClaude Sonnet 4.5GPT-5.1
Academic reasoning Humanity’s Last ExamNo tools37.5%21.6%13.7%26.5%
With search and code execution45.8%
Visual reasoning puzzles ARC-AGI-2ARC Prize Verified31.1%4.9%13.6%17.6%
Scientific knowledge
GPQA Diamond
No tools91.9%86.4%83.4%88.1%
Mathematics
AIME 2025
No tools95.0%88.0%87.0%94.0%
With code execution100.0%100.0%
Challenging Math Contest problems
MathArena Apex
23.4%0.5%1.6%1.0%
Multimodal understanding and reasoning
MMMU-Pro
81.0%68.0%68.0%76.0%
Screen understanding
ScreenSpot-Pro
72.7%11.4%36.2%3.5%
Information synthesis from complex charts
CharXiv Reasoning
81.4%69.6%68.5%69.5%
OCR
OmniDocBench 1.5
Overall Edit Distance, lower is better0.1150.1450.1450.147
Knowledge acquisition from videos
Video-MMMU
87.6%83.6%77.8%80.4%
Competitive coding problems
LiveCodeBench Pro
Elo Rating, higher is better2,4391,7751,4182,243
Agentic terminal coding
Terminal-Bench 2.0
Terminus-2 agent54.2%32.6%42.8%47.6%
Agentic coding
SWE-Bench Verified
Single attempt76.2%59.6%77.2%76.3%
Agentic tool use
τ2-bench
85.4%54.9%84.7%80.2%
Long-horizon agentic tasks
Vending-Bench 2
Net worth (mean), higher is better$5,478.16$573.64$3,838.74$1,473.43
Held out internal grounding, parametric, MM, and search retrieval benchmarks
FACTS Benchmark Suite
70.5%63.4%50.4%50.8%
Parametric knowledge
SimpleQA Verified
72.1%54.5%29.3%34.9%
Multilingual Q&A
MMMLU
91.8%89.5%89.1%91.0%
Commonsense reasoning across 100 Languages and Cultures
Global PIQA
93.4%91.5%90.1%90.9%
Long context performance
MRCR v2 (8-needle)
128k (average)77.0%58.0%47.1%61.6%
1M (pointwise)26.3%16.4%not supportednot supported

Źródło: https://storage.googleapis.com/deepmind-media/gemini/gemini_3_pro_model_evaluation.pdf

Google nie bawi się w półśrodki. W teście Humanity’s Last Exam – jednym z najtrudniejszych benchmarków dla AI – Gemini 3 Pro osiąga 37.5% (bez narzędzi) i aż 45.8% z wykorzystaniem kodu. Dla porównania? Claude Sonnet 4.5 to zaledwie 13%, a GPT-5.1 – 26.5%. To nie jest „lekka poprawa”. To przepaść.

Jeszcze ciekawiej robi się w Arc AGI 2 (testy rozumowania wizualnego, które są świetnym wyznacznikiem generalnej inteligencji). Gemini 3 Deep Think (nowy model „myślący”) deklasuje rywali z wynikiem 45.1%. GPT-5.1 zostaje w tyle z wynikiem 17%. Widzicie tę różnicę? To pokazuje, jak dobrze nowy model radzi sobie z generalizacją wiedzy, a nie tylko z jej odtwarzaniem.

„Deep Think” – Gemini 3 od razu może myśleć głęboko

Wraz z wersją Pro dostaliśmy Gemini 3 Deep Think. Nazwa mówi wszystko – model poświęca więcej tokenów na fazę „myślenia” przed udzieleniem odpowiedzi. Wyniki? W benchmarku naukowym GPQA zajmuje pierwsze miejsce z wynikiem 93.8%. Jeśli potrzebujecie modelu do złożonych zadań logicznych i naukowych, Deep Think właśnie stał się waszym nowym najlepszym przyjacielem.

Prawdziwa multimodalność: Video klatka po klatce

To jest „killer feature”, o którym mówi się za mało. Gemini 3 nie „czyta” wideo z transkryptu. On je widzi. Dzięki oknu kontekstowemu o wielkości 1 miliona tokenów, model analizuje wideo klatka po klatce.

Możesz wrzucić link do YouTube (tak, Google to wszystko pięknie zintegrowało), a model bezbłędnie opisze, co dzieje się w 3. minucie nagrania, w co ubrany jest prezenter i jaki tekst widać na ekranie laptopa w tle. To poziom zrozumienia kontekstu wizualnego, którego konkurencja jeszcze nie osiągnęła.

Anti-Gravity: Google rzuca wyzwanie Cursorowi

Programiści, zapnijcie pasy. Google wprowadziło Anti-Gravity. To nowa platforma „agentic coding”, która ma rywalizować bezpośrednio z Cursorem czy Windsurfem.

Co w tym przełomowego? To natywne środowisko dla Gemini 3, które wspiera też inne modele (nawet open-source’owy GPTOSS czy modele Anthropic). To nie jest tylko autouzupełnianie kodu; to środowisko, w którym AI zarządza całym procesem developmentu.

Google Search w trybie AI

To zmiana, którą odczuje każdy. Wyszukiwarka Google z Gemini 3 potrafi teraz dynamicznie generować interfejs użytkownika. Szukasz informacji o nowym badaniu naukowym? Google nie tylko wypluje listę linków. W trybie „Thinking Mode” stworzy dla ciebie dedykowany dashboard z podsumowaniem, wyciągniętymi danymi i interaktywnymi elementami, które zostały wygenerowane w locie przez AI. UI, który powstaje na żywo pod twoje zapytanie? Witamy w przyszłości.

Benchmarki: Gemini 3 vs reszta świata

Jak wspominałem wcześniej, w klasycznych testach laboratoryjnych (takich jak Humanity’s Last Exam czy wizualne Arc AGI 2) Google deklasuje konkurencję, osiągając wyniki o kilkadziesiąt procent lepsze od modeli OpenAI czy Anthropic. Ale bycie „najlepszym modelem na Ziemi” (jak określił to Matthew Berman) ma jedną, małą rysę.

Pięta achillesowa? Ten jeden ranking, którego Gemini nie wygrało

Jest jeden konkretny benchmark, w którym Google nie zdobyło złota. Mowa o SWE-bench Verified.

Co to oznacza ?

  • SWE-bench testuje zdolność modelu do rozwiązywania prawdziwych problemów inżynierii oprogramowania (rozwiązywanie ticketów z GitHuba). To test na to, jak dobrym „autonomicznym programistą” jest AI.
  • W tym konkretnym zestawieniu Gemini 3 Pro osiągnęło 76.2%, co jest niesamowitym wynikiem, ALE…
  • Pierwsze miejsce nadal należy do Claude Sonnet 4.5 z wynikiem 77.2%.

Co to znaczy? To sygnał, że choć Gemini 3 jest modelem potężniejszym „ogólnie” – ma szerszą wiedzę, lepiej rozumuje wizualnie i dominuje w czystej konwersacji (co potwierdza LLM Arena) – to Claude od Anthropic wciąż utrzymuje minimalną przewagę w precyzyjnym, agentycznym kodowaniu. W rankingach LLM Arena to Gemini 3 wybierają użytkownicy w zastosowaniach koderskich. Jeśli twoim głównym zastosowaniem AI jest wrzucenie go w pętlę, by samodzielnie naprawiało repozytoria kodu bez nadzoru, koniecznie sprawdź Gemini 3, ale Claude Sonnet 4.5 wciąż może być minimalnie bezpieczniejszym wyborem.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *