Ocena i porównanie dużych modeli językowych (LLM) staje się kluczowe dla użytkowników poszukujących najbardziej efektywnych rozwiązań. Platforma lmarena.ai, znana również jako Chatbot Arena, dostarcza aktualny ranking 238 LLM-ów oparty na ponad 2.5 milionach głosów społeczności.
My skupimy się na top 10, wiodących w danej chwili modelach językowych wyłonionych na podstawie preferencji użytkowników. Poniższa tabela przedstawia uproszczone wyniki z Listopada 2025.
18 listopada 2025 xAI wypuściło Grok 4.1 – model ten w ciągu kilku godzin wskoczył na 1. miejsce na którym spędził kilka godzin. Tego samego dnia Google wprowadził Gemini 3 i zniszczył konkurencję. Gemini 3 jest obecnie jest najlepiej ocenianym LLM-em na świecie według społeczności LMArena. Przez zmiany z 18 listopada GPT-5-high wypadł z rankingu top 10! Gdzie jest GPT 5.1? Nie wiadomo! Wcześniej przez kilka miesięcy prowadziły modele Google i OpenAI, a latem 2025 dwa miesiące na czele spędził Grok 4.
Top 10 modeli językowych
Top 3 modeli do pisania tekstów
Wiadomo że każdy model jest dopasowany do pewnego rodzaju zastosowań. LLM Arena pozwala zobaczyć modele które zyskały najwyższe noty w różnych dziedzinach takich jak pisanie tekstów, matematyka czy programowanie. Poniżej najlepsze modele do pisania kreatywnych tekstów.
| Ranking | Model |
| 1 | gemini-3-pro |
| 2 | grok-4.1-thinking |
| 3 | gemini-2.5-pro |
Top 5 modeli do programowania
| Ranking | Model |
|---|---|
| 1 | gemini-3-pro |
| 2 | claude-sonnet-4-5-20250929-thinking-32k |
| 3 | claude-opus-4-1-20250805-thinking-16k |
| 4 | grok-4.1 |
| 5 | grok-4.1-thinking |
Nowy Grok 4.1 wskakuje do rankingu
Który chat AI jest najlepszy?
We Listpadzie 2025 najlepiej ocenianym przez ponad 2 miliony ludzi modelem językowym jest Gemini 3 wcześniej przez dwa miesiące prowadził Gemini 2.5-pro.
Metodologia oceny LLM-ów na lmarena.ai
Chatbot Arena wykorzystuje system ocen oparty na modelu Bradley-Terry’ego, który jest szeroko stosowany w rankingach sportowych i grach konkurencyjnych. Model ten pozwala na oszacowanie prawdopodobieństwa, że dany model wygra w bezpośrednim starciu z innym modelem. Proces oceny przebiega następująco:
- Anonimowe pojedynki: Użytkownicy uczestniczą w losowych, anonimowych pojedynkach między dwoma modelami LLM, nie wiedząc, które modele są testowane.
- Interakcja i głosowanie: Po otrzymaniu odpowiedzi od obu modeli na zadane pytanie, użytkownik może kontynuować rozmowę lub oddać głos na lepszą odpowiedź. Dopiero po oddaniu głosu ujawniane są nazwy modeli.
- Zbieranie danych: Platforma gromadzi wszystkie interakcje i głosy, uwzględniając tylko te, które zostały oddane przed ujawnieniem nazw modeli, aby zapewnić obiektywność ocen.
- Aktualizacja rankingów: Na podstawie zebranych głosów i modelu Bradley-Terry’ego, rankingi są regularnie aktualizowane, odzwierciedlając bieżące preferencje społeczności.
Dzięki takiemu podejściu, lmarena.ai zapewnia dynamiczny i oparty na rzeczywistych interakcjach ranking LLM-ów, który jest cennym źródłem informacji dla badaczy, deweloperów i entuzjastów sztucznej inteligencji. https://arxiv.org/pdf/2403.04132


