Ocena i porównanie dużych modeli językowych (LLM) staje się kluczowe dla użytkowników poszukujących najbardziej efektywnych rozwiązań. Platforma lmarena.ai, znana również jako Chatbot Arena, dostarcza aktualny ranking 206 LLM-ów oparty na ponad 2.5 milionach głosów społeczności.
My skupimy się na top 10, wiodących w danej chwili modelach językowych wyłonionych na podstawie preferencji użytkowników. Poniższa tabela przedstawia uproszczone wyniki z Czerwca 2025.
W tym miesiącu na prowadzeniu nowy Gemini 2.5-pro. Pojawił się nowy lider w TOP 3 – ChatGPT-o3 biorąc pod uwagę czerwcową zmianę cen modelu o3 jest to model godny rozpatrzenia przy wymagających projektach.
Top 10 modeli językowych
Ranking | Model | Arena Score | Głosy | Organizacja |
---|---|---|---|---|
1 | Gemini-2.5-pro-preview-06-05 | 1470 | 4701 | |
2 | Gemini-2.5-pro-preview-05-06 | 1446 | 10386 | |
3 | o3-2025-04-16 | 1443 | 13808 | OpenAI |
4 | Chatgpt-4o-latest-20250326 | 1431 | 18302 | OpenAI |
5 | Gpt-4.5-preview-2025-02-27 | 1425 | 15271 | OpenAI |
6 | Gemini-2.5-flash-preview-05-20 | 1419 | 9970 | |
7 | Claude-opus-4-20250514 | 1414 | 10402 | Anthropic |
8 | gpt-4.1-2025-04-14 | 1402 | 12421 | OpenAI |
9 | Gemini-2.5-flash-preview-04-17 | 1400 | 13320 | |
10 | Grok-3-preview-02-24 | 1399 | 12123 | xAI |
Top 3 modeli do pisania tekstów
Wiadomo że każdy model jest dopasowany do pewnego rodzaju zastosowań. LLM Arena pozwala zobaczyć modele które zyskały najwyższe nowy w różnych dziedzinach takich jak pisanie tekstów, matematyka czy programowanie. Poniżej najlepsze modele do pisania kreatywnych tekstów.
Ranking | Model | Arena Score | Głosy | Organizacja |
1 | Gemini-2.5-pro-preview-06-05 | 1472 | 648 | |
2 | Gemini-2.5-pro-preview-05-06 | 1446 | 1546 | |
3 | Claude-opus-4-20250514 | 1424 | 1240 | xAI |
4 | ChatGPT-4o-latest (2025-03-26) | 1420 | 2720 | OpenAI |
Top 3 modeli do programowania
Ranking | Model | Arena Score | Głosy | Organizacja |
---|---|---|---|---|
1 | gemini-2.5-pro-preview-06-05 | 1496 | 1152 | |
2 | o3-2025-04-16 | 1460 | 3642 | OpenAI |
2 | chatgpt-4o-latest-20250326 | 1457 | 4455 | OpenAI |
Który chat AI jest najlepszy?
W Czerwcu 2025 najlepiej ocenianym przez ponad 2 miliony ludzi modelem językowym jest Gemini 2.5-pro wcześniej przez dwa miesiące prowadził Grok 3. Mamy za to nowego pretendenta do tronu w postaci GPT-o3-pro którego w rankingu jeszcze nie uwzględniono.
Metodologia oceny LLM-ów na lmarena.ai
Chatbot Arena wykorzystuje system ocen oparty na modelu Bradley-Terry’ego, który jest szeroko stosowany w rankingach sportowych i grach konkurencyjnych. Model ten pozwala na oszacowanie prawdopodobieństwa, że dany model wygra w bezpośrednim starciu z innym modelem. Proces oceny przebiega następująco:
- Anonimowe pojedynki: Użytkownicy uczestniczą w losowych, anonimowych pojedynkach między dwoma modelami LLM, nie wiedząc, które modele są testowane.
- Interakcja i głosowanie: Po otrzymaniu odpowiedzi od obu modeli na zadane pytanie, użytkownik może kontynuować rozmowę lub oddać głos na lepszą odpowiedź. Dopiero po oddaniu głosu ujawniane są nazwy modeli.
- Zbieranie danych: Platforma gromadzi wszystkie interakcje i głosy, uwzględniając tylko te, które zostały oddane przed ujawnieniem nazw modeli, aby zapewnić obiektywność ocen.
- Aktualizacja rankingów: Na podstawie zebranych głosów i modelu Bradley-Terry’ego, rankingi są regularnie aktualizowane, odzwierciedlając bieżące preferencje społeczności.
Dzięki takiemu podejściu, lmarena.ai zapewnia dynamiczny i oparty na rzeczywistych interakcjach ranking LLM-ów, który jest cennym źródłem informacji dla badaczy, deweloperów i entuzjastów sztucznej inteligencji. https://arxiv.org/pdf/2403.04132