Poniżej znajdziesz zestaw wykresów, które pokazują bezpośrednie porównanie modeli GPT 5.2 Thinking i Gemini 3 Pro na wybranych benchmarkach. Każdy wykres prezentuje wyniki w procentach w formie dwóch pionowych słupków, co pozwala szybko zobaczyć, który model radzi sobie lepiej w danym zadaniu.
GPQA Diamond
GPQA Diamond mierzy jakość odpowiedzi na zaawansowane pytania z nauk ścisłych, takich jak fizyka czy matematyka na poziomie akademickim.
AIME 2025
AIME 2025 to konkurs matematyczny, który jest wymagającym sprawdzianem dla modeli w zadaniach obliczeniowych i dowodowych.
ARC AGI 2
ARC AGI 2 sprawdza zdolność do abstrakcyjnego rozumowania i wykrywania wzorców, co jest zbliżone do elementów inteligencji ogólnej.
Humanity’s Last Exam bez narzędzi
Test Humanity’s Last Exam sprawdza ogólną zdolność modelu do rozwiązywania trudnych zadań bez wsparcia wyszukiwarki i środowiska programistycznego.
Humanity’s Last Exam z wyszukiwarką i kodem
W tej konfiguracji modele mogą korzystać z wyszukiwarki i narzędzi programistycznych, co lepiej odzwierciedla realną pracę asystenta AI.
MMMU Pro
MMMU Pro ocenia wielozadaniowe rozumienie w różnych dziedzinach, łącząc język naturalny z bardziej specjalistyczną wiedzą.
CharXiv Reasoning
CharXiv Reasoning bada to, jak dobrze modele interpretują i analizują treści naukowe, w tym wykresy oraz fragmenty publikacji.
ScreenSpot Pro
ScreenSpot Pro mierzy zdolność rozumienia zrzutów ekranu i interfejsów, co jest ważne dla automatyzacji pracy z aplikacjami.
Video MMMU
Video MMMU sprawdza zrozumienie materiałów wideo, w tym śledzenie obiektów, wydarzeń oraz zależności w czasie.
SWE Bench Verified
SWE Bench Verified bada to, jak dobrze modele potrafią naprawiać rzeczywisty kod na podstawie opisanych błędów oraz testów.
MMMLU
MMMLU rozszerza klasyczny MMLU o wymiar wielojęzyczny, oceniając wiedzę i rozumienie w wielu językach.
MRCR v2 długi kontekst
MRCR v2 sprawdza, jak model radzi sobie z długim kontekstem przy wyszukiwaniu konkretnych informacji w bardzo rozbudowanych dokumentach.
Zestawienie pokazuje, że przewaga zmienia się w zależności od benchmarku. GPT 5.2 Thinking wyraźnie prowadzi w zadaniach typowo matematycznych i części zadań kodowych, natomiast Gemini 3 Pro jest bardzo mocny w testach wielojęzycznych oraz multimodalnych.


