Meta została oskarżona o manipulowanie wynikami benchmarków AI poprzez użycie specjalnie dostosowanej wersji modelu Llama 4 Maverick, nazwanej „Llama-4-Maverick-03-26-Experimental”.
Ta wersja została zoptymalizowana pod kątem preferencji ludzkich i różniła się od publicznie dostępnej wersji modelu. W rezultacie osiągnęła wysokie wyniki w rankingu LMArena, skąd czerpiemy informacje tworząc ranking czatów. Dostosowanie modelu wywołało kontrowersje dotyczące integralności i przejrzystości takich ocen.
Organizacja LMArena, odpowiedzialna za prowadzenie rankingu, stwierdziła, że interpretacja ich polityki przez Meta nie była zgodna z oczekiwaniami. W odpowiedzi zaktualizowali swoje zasady, aby zapewnić uczciwe i powtarzalne oceny w przyszłości. Meta broniła się, twierdząc, że eksperymentowanie z różnymi wariantami modeli jest standardową praktyką i zaprzeczyła zarzutom o trenowanie modeli na zestawach testowych.
We're glad to start getting Llama 4 in all your hands. We're already hearing lots of great results people are getting with these models.
— Ahmad Al-Dahle (@Ahmad_Al_Dahle) April 7, 2025
That said, we're also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…
Dodatkowo, na platformach społecznościowych pojawiły się niepotwierdzone doniesienia, jakoby wewnętrzne naciski w Meta prowadziły do manipulowania zestawami testowymi w procesie trenowania modeli. Ahmad Al-Dahle, wiceprezes ds. generatywnej AI w Meta, stanowczo zaprzeczył tym oskarżeniom, podkreślając, że firma nigdy nie trenowała modeli na zestawach testowych.
Ta sytuacja podkreśla rosnące napięcia w branży AI dotyczące wiarygodności benchmarków oraz praktyk firm w prezentowaniu wyników swoich modeli.