Artykuły Narzędzia AI Tekstowe

Ranking czatów, LLMów [aktualizacja Czerwiec 2025]

dwa roboty walczą o bycie najlepszym - Ranking LLM

Ocena i porównanie dużych modeli językowych (LLM) staje się kluczowe dla użytkowników poszukujących najbardziej efektywnych rozwiązań. Platforma lmarena.ai, znana również jako Chatbot Arena, dostarcza aktualny ranking 206 LLM-ów oparty na ponad 2.5 milionach głosów społeczności.

My skupimy się na top 10, wiodących w danej chwili modelach językowych wyłonionych na podstawie preferencji użytkowników. Poniższa tabela przedstawia uproszczone wyniki z Czerwca 2025.

W tym miesiącu na prowadzeniu nowy Gemini 2.5-pro. Pojawił się nowy lider w TOP 3 – ChatGPT-o3 biorąc pod uwagę czerwcową zmianę cen modelu o3 jest to model godny rozpatrzenia przy wymagających projektach.

Top 10 modeli językowych

RankingModelArena ScoreGłosyOrganizacja
1Gemini-2.5-pro-preview-06-0514704701Google
2Gemini-2.5-pro-preview-05-06144610386Google
3o3-2025-04-16144313808OpenAI
4Chatgpt-4o-latest-20250326143118302OpenAI
5Gpt-4.5-preview-2025-02-27142515271OpenAI
6Gemini-2.5-flash-preview-05-2014199970Google
7Claude-opus-4-20250514141410402Anthropic
8gpt-4.1-2025-04-14140212421OpenAI
9Gemini-2.5-flash-preview-04-17140013320Google
10Grok-3-preview-02-24139912123xAI

Top 3 modeli do pisania tekstów

Wiadomo że każdy model jest dopasowany do pewnego rodzaju zastosowań. LLM Arena pozwala zobaczyć modele które zyskały najwyższe nowy w różnych dziedzinach takich jak pisanie tekstów, matematyka czy programowanie. Poniżej najlepsze modele do pisania kreatywnych tekstów.

RankingModelArena ScoreGłosyOrganizacja
1Gemini-2.5-pro-preview-06-051472648Google
2Gemini-2.5-pro-preview-05-0614461546Google
3Claude-opus-4-2025051414241240xAI
4ChatGPT-4o-latest (2025-03-26)14202720OpenAI

Top 3 modeli do programowania

RankingModelArena ScoreGłosyOrganizacja
1gemini-2.5-pro-preview-06-0514961152Google
2o3-2025-04-1614603642OpenAI
2chatgpt-4o-latest-2025032614574455OpenAI

Który chat AI jest najlepszy?

W Czerwcu 2025 najlepiej ocenianym przez ponad 2 miliony ludzi modelem językowym jest Gemini 2.5-pro wcześniej przez dwa miesiące prowadził Grok 3. Mamy za to nowego pretendenta do tronu w postaci GPT-o3-pro którego w rankingu jeszcze nie uwzględniono.

Metodologia oceny LLM-ów na lmarena.ai

Chatbot Arena wykorzystuje system ocen oparty na modelu Bradley-Terry’ego, który jest szeroko stosowany w rankingach sportowych i grach konkurencyjnych. Model ten pozwala na oszacowanie prawdopodobieństwa, że dany model wygra w bezpośrednim starciu z innym modelem. Proces oceny przebiega następująco:

  1. Anonimowe pojedynki: Użytkownicy uczestniczą w losowych, anonimowych pojedynkach między dwoma modelami LLM, nie wiedząc, które modele są testowane.
  2. Interakcja i głosowanie: Po otrzymaniu odpowiedzi od obu modeli na zadane pytanie, użytkownik może kontynuować rozmowę lub oddać głos na lepszą odpowiedź. Dopiero po oddaniu głosu ujawniane są nazwy modeli.
  3. Zbieranie danych: Platforma gromadzi wszystkie interakcje i głosy, uwzględniając tylko te, które zostały oddane przed ujawnieniem nazw modeli, aby zapewnić obiektywność ocen.
  4. Aktualizacja rankingów: Na podstawie zebranych głosów i modelu Bradley-Terry’ego, rankingi są regularnie aktualizowane, odzwierciedlając bieżące preferencje społeczności.

Dzięki takiemu podejściu, lmarena.ai zapewnia dynamiczny i oparty na rzeczywistych interakcjach ranking LLM-ów, który jest cennym źródłem informacji dla badaczy, deweloperów i entuzjastów sztucznej inteligencji. https://arxiv.org/pdf/2403.04132

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *