Ocena i porównanie dużych modeli językowych (LLM) staje się kluczowe dla użytkowników poszukujących najbardziej efektywnych rozwiązań. Platforma lmarena.ai, znana również jako Chatbot Arena, dostarcza aktualny ranking 206 LLM-ów oparty na ponad 2.5 milionach głosów społeczności.
My skupimy się na top 10, wiodących w danej chwili modelach językowych wyłonionych na podstawie preferencji użytkowników. Poniższa tabela przedstawia uproszczone wyniki z Marca 2025.
Top 10 modeli językowych
Ranking | Model | Arena Score | Głosy | Organization |
---|---|---|---|---|
1 | Grok-3-Preview-02-24 | 1412 | 3364 | xAI |
2 | GPT-4.5-Preview | 1411 | 3242 | OpenAI |
3 | Gemini-2.0-Flash-Thinking-Exp-01-21 | 1384 | 17487 | |
4 | Gemini-2.0-Pro-Exp-02-05 | 1380 | 15466 | |
5 | ChatGPT-4o-latest (2025-01-29) | 1377 | 17221 | OpenAI |
6 | DeepSeek-R1 | 1363 | 8580 | DeepSeek |
7 | Gemini-2.0-Flash-001 | 1357 | 13257 | |
8 | o1-2024-12-17 | 1352 | 19785 | OpenAI |
9 | Qwen2.5-Max | 1336 | 11930 | Alibaba |
10 | o1-preview | 1335 | 33167 | OpenAI |
Który chat AI jest najlepszy?
W Marcu 2025 najlepiej ocenianym przez ponad 2 miliony ludzi modelem językowym jest wciąż Grok 3. Mamy za to nowego pretendenta do tronu w postaci GPT-4.5-Preview.
Metodologia oceny LLM-ów na lmarena.ai
Chatbot Arena wykorzystuje system ocen oparty na modelu Bradley-Terry’ego, który jest szeroko stosowany w rankingach sportowych i grach konkurencyjnych. Model ten pozwala na oszacowanie prawdopodobieństwa, że dany model wygra w bezpośrednim starciu z innym modelem. Proces oceny przebiega następująco:
- Anonimowe pojedynki: Użytkownicy uczestniczą w losowych, anonimowych pojedynkach między dwoma modelami LLM, nie wiedząc, które modele są testowane.
- Interakcja i głosowanie: Po otrzymaniu odpowiedzi od obu modeli na zadane pytanie, użytkownik może kontynuować rozmowę lub oddać głos na lepszą odpowiedź. Dopiero po oddaniu głosu ujawniane są nazwy modeli.
- Zbieranie danych: Platforma gromadzi wszystkie interakcje i głosy, uwzględniając tylko te, które zostały oddane przed ujawnieniem nazw modeli, aby zapewnić obiektywność ocen.
- Aktualizacja rankingów: Na podstawie zebranych głosów i modelu Bradley-Terry’ego, rankingi są regularnie aktualizowane, odzwierciedlając bieżące preferencje społeczności.
Dzięki takiemu podejściu, lmarena.ai zapewnia dynamiczny i oparty na rzeczywistych interakcjach ranking LLM-ów, który jest cennym źródłem informacji dla badaczy, deweloperów i entuzjastów sztucznej inteligencji. https://arxiv.org/pdf/2403.04132