Aktualności

Porównanie GPT 5.2 Thinking i Gemini 3 Pro na kluczowych benchmarkach

ChatGPT 5.2 porównanie z Gemini 3 pro

Poniżej znajdziesz zestaw wykresów, które pokazują bezpośrednie porównanie modeli GPT 5.2 Thinking i Gemini 3 Pro na wybranych benchmarkach. Każdy wykres prezentuje wyniki w procentach w formie dwóch pionowych słupków, co pozwala szybko zobaczyć, który model radzi sobie lepiej w danym zadaniu.

GPQA Diamond

GPQA Diamond mierzy jakość odpowiedzi na zaawansowane pytania z nauk ścisłych, takich jak fizyka czy matematyka na poziomie akademickim.

AIME 2025

AIME 2025 to konkurs matematyczny, który jest wymagającym sprawdzianem dla modeli w zadaniach obliczeniowych i dowodowych.

ARC AGI 2

ARC AGI 2 sprawdza zdolność do abstrakcyjnego rozumowania i wykrywania wzorców, co jest zbliżone do elementów inteligencji ogólnej.

Humanity’s Last Exam bez narzędzi

Test Humanity’s Last Exam sprawdza ogólną zdolność modelu do rozwiązywania trudnych zadań bez wsparcia wyszukiwarki i środowiska programistycznego.

Humanity’s Last Exam z wyszukiwarką i kodem

W tej konfiguracji modele mogą korzystać z wyszukiwarki i narzędzi programistycznych, co lepiej odzwierciedla realną pracę asystenta AI.

MMMU Pro

MMMU Pro ocenia wielozadaniowe rozumienie w różnych dziedzinach, łącząc język naturalny z bardziej specjalistyczną wiedzą.

CharXiv Reasoning

CharXiv Reasoning bada to, jak dobrze modele interpretują i analizują treści naukowe, w tym wykresy oraz fragmenty publikacji.

ScreenSpot Pro

ScreenSpot Pro mierzy zdolność rozumienia zrzutów ekranu i interfejsów, co jest ważne dla automatyzacji pracy z aplikacjami.

Video MMMU

Video MMMU sprawdza zrozumienie materiałów wideo, w tym śledzenie obiektów, wydarzeń oraz zależności w czasie.

SWE Bench Verified

SWE Bench Verified bada to, jak dobrze modele potrafią naprawiać rzeczywisty kod na podstawie opisanych błędów oraz testów.

MMMLU

MMMLU rozszerza klasyczny MMLU o wymiar wielojęzyczny, oceniając wiedzę i rozumienie w wielu językach.

MRCR v2 długi kontekst

MRCR v2 sprawdza, jak model radzi sobie z długim kontekstem przy wyszukiwaniu konkretnych informacji w bardzo rozbudowanych dokumentach.

Zestawienie pokazuje, że przewaga zmienia się w zależności od benchmarku. GPT 5.2 Thinking wyraźnie prowadzi w zadaniach typowo matematycznych i części zadań kodowych, natomiast Gemini 3 Pro jest bardzo mocny w testach wielojęzycznych oraz multimodalnych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *