Artykuły

Kontrowersje wokół Meta: Oskarżenia o manipulację wynikami benchmarków AI

llama optymalizuje swoje wyniki pod ludzi

Meta została oskarżona o manipulowanie wynikami benchmarków AI poprzez użycie specjalnie dostosowanej wersji modelu Llama 4 Maverick, nazwanej „Llama-4-Maverick-03-26-Experimental”.

Ta wersja została zoptymalizowana pod kątem preferencji ludzkich i różniła się od publicznie dostępnej wersji modelu. W rezultacie osiągnęła wysokie wyniki w rankingu LMArena, skąd czerpiemy informacje tworząc ranking czatów. Dostosowanie modelu wywołało kontrowersje dotyczące integralności i przejrzystości takich ocen. ​

Organizacja LMArena, odpowiedzialna za prowadzenie rankingu, stwierdziła, że interpretacja ich polityki przez Meta nie była zgodna z oczekiwaniami. W odpowiedzi zaktualizowali swoje zasady, aby zapewnić uczciwe i powtarzalne oceny w przyszłości. Meta broniła się, twierdząc, że eksperymentowanie z różnymi wariantami modeli jest standardową praktyką i zaprzeczyła zarzutom o trenowanie modeli na zestawach testowych.

Dodatkowo, na platformach społecznościowych pojawiły się niepotwierdzone doniesienia, jakoby wewnętrzne naciski w Meta prowadziły do manipulowania zestawami testowymi w procesie trenowania modeli. Ahmad Al-Dahle, wiceprezes ds. generatywnej AI w Meta, stanowczo zaprzeczył tym oskarżeniom, podkreślając, że firma nigdy nie trenowała modeli na zestawach testowych. ​

Ta sytuacja podkreśla rosnące napięcia w branży AI dotyczące wiarygodności benchmarków oraz praktyk firm w prezentowaniu wyników swoich modeli.​

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *