Czy tego chcemy, czy nie, sztuczna inteligencja (AI) rozwija się, zmieniając nasze codzienne życie i wpływając na różne sektory gospodarki. Aby ocenić skuteczność i potencjał różnych modeli AI, badacze stosują różnorodne metody testowania.
Bardzo często, gdy nowy model AI wchodzi na rynek, jego twórcy chwalą się tabelkami pokazującymi, jak wysokie rezultaty dany model osiągnął w różnych testach. W kontekście AI, adaptacja ta jest mierzona za pomocą rygorystycznych testów, które oceniają zdolność modeli do radzenia sobie z różnorodnymi zadaniami. Jednak co tak naprawdę sprawdzają te testy? Czy osiągnięcie 100% w tych benchmarkach jest możliwe? A jeśli wszystkie modele AI osiągną perfekcyjne wyniki, co to będzie oznaczało dla przyszłości tej technologii?
Testy takie jak MMLU, HellaSwag czy HumanEval mają na celu ocenę różnych aspektów zdolności AI, od rozumienia języka po zdolności matematyczne i programistyczne. W miarę jak modele stają się coraz bardziej zaawansowane, pytanie o ich granice i rzeczywiste możliwości staje się coraz bardziej istotne. Czy perfekcyjne wyniki oznaczają, że AI osiągnęła pełnię swoich możliwości, czy może sugerują, że testy te wymagają dalszego rozwoju, aby nadążyć za postępem technologicznym?
Przyjrzyjmy się bliżej tym testom, ich twórcom oraz temu, co naprawdę mierzą.
MMLU (Massive Multitask Language Understanding)
Massive Multitask Language Understanding (MMLU) to zaawansowany benchmark oceniający zdolności modeli językowych w szerokim spektrum dziedzin i typów pytań. Obejmuje pytania z 57 przedmiotów, w tym nauk przyrodniczych, humanistycznych i technicznych, zarówno na poziomie akademickim, jak i zawodowym. Został opracowany przez OpenAI, czyli twórcę GPT-4.
MMLU jest używany do dokładnej oceny wszechstronności i ogólnej wiedzy modeli językowych. Pytań można spodziewać się w formacie wielokrotnego wyboru, wymagających od AI szerokiego zakresu wiedzy i umiejętności logicznego myślenia.
Przykład pytania:
Który z poniższych pierwiastków jest gazem szlachetnym?
A. Hel
B. Węgiel
C. Żelazo
D. Sód
Zakres testów MMLU:
Zadanie | Testowane Koncepcje | Kategoria |
---|---|---|
Algebra Abstrakcyjna | Grupy, pierścienie, przestrzenie wektorowe, … | STEM |
Anatomia | Układ nerwowy, układ krążenia, … | STEM |
Astronomia | Układ słoneczny, galaktyki, asteroidy, … | STEM |
Etyka Biznesu | Odpowiedzialność korporacyjna, interesariusze, regulacje, … | Inne |
Wiedza Kliniczna | Diagnostyka, stawy, badanie brzucha, … | Inne |
Biologia na Uczelni | Struktura komórkowa, biologia molekularna, ekologia, … | STEM |
Chemia na Uczelni | Analiza, chemia organiczna, nieorganiczna, fizyczna, … | STEM |
Informatyka na Uczelni | Algorytmy, systemy, grafy, rekursja, … | STEM |
Matematyka na Uczelni | Równania różniczkowe, analiza rzeczywista, kombinatoryka, … | STEM |
Medycyna na Uczelni | Biochemia wstępna, socjologia, rozumowanie, … | Inne |
Fizyka na Uczelni | Elektromagnetyzm, termodynamika, szczególna teoria względności, … | STEM |
Bezpieczeństwo Komputerowe | Kryptografia, malware, kanały boczne, fuzzing, … | STEM |
Fizyka Koncepcyjna | Prawa Newtona, ruch obrotowy, grawitacja, dźwięk, … | STEM |
Ekonometria | Zmienność, długoterminowe relacje, prognozowanie, … | Nauki Społeczne |
Inżynieria Elektryczna | Obwody, systemy energetyczne, napędy elektryczne, … | STEM |
Matematyka Podstawowa | Zadania tekstowe, mnożenie, reszty, zaokrąglanie, … | STEM |
Logika Formalna | Propozycje, logika predykatów, logika pierwszego rzędu, … | Nauki Humanistyczne |
Fakty Globalne | Skrajne ubóstwo, wskaźniki alfabetyzacji, oczekiwana długość życia, … | Inne |
Biologia w Szkole Średniej | Selekcja naturalna, dziedziczność, cykl komórkowy, cykl Krebsa, … | STEM |
Chemia w Szkole Średniej | Reakcje chemiczne, jony, kwasy i zasady, … | STEM |
Informatyka w Szkole Średniej | Tablice, warunki, iteracja, dziedziczenie, … | STEM |
Historia Europy w Szkole Średniej | Renesans, reformacja, industrializacja, … | Nauki Humanistyczne |
Geografia w Szkole Średniej | Migracja ludności, użytkowanie ziemi, procesy urbanizacyjne, … | Nauki Społeczne |
Rząd i Polityka w Szkole Średniej | Gałęzie rządu, wolności obywatelskie, ideologie polityczne, … | Nauki Społeczne |
Makroekonomia w Szkole Średniej | Wskaźniki ekonomiczne, dochód narodowy, handel międzynarodowy, … | Nauki Społeczne |
Matematyka w Szkole Średniej | Pre-algebra, algebra, trygonometria, kalkulus, … | STEM |
Mikroekonomia w Szkole Średniej | Podaż i popyt, konkurencja niedoskonała, awaria rynku, … | Nauki Społeczne |
Fizyka w Szkole Średniej | Kinematyka, energia, dynamika płynów, ciśnienie, … | STEM |
Psychologia w Szkole Średniej | Zachowanie, emocje, uczenie się, … | Nauki Społeczne |
Statystyka w Szkole Średniej | Analiza losowa, rozkłady próbek, testy chi-kwadrat, … | STEM |
Historia USA w Szkole Średniej | Wojna domowa, Wielka Depresja, Wielkie Społeczeństwo, … | Nauki Humanistyczne |
Historia Światowa w Szkole Średniej | Imperializm osmański, I wojna światowa, … | Nauki Humanistyczne |
Starzenie się Ludzi | Starzenie się, demencja, długowieczność, zmiany osobowości, … | Inne |
Seksualność Człowieka | Ciąża, różnicowanie płciowe, orientacja seksualna, … | Nauki Społeczne |
Prawo Międzynarodowe | Prawa człowieka, suwerenność, prawo morza, użycie siły, … | Nauki Humanistyczne |
Jurisprudencja | Prawo naturalne, klasyczny pozytywizm prawniczy, realizm prawniczy, … | Nauki Humanistyczne |
Błędy Logiczne | Żaden prawdziwy Szkot, błąd podstawowej stopy, błąd kompozycji, … | Nauki Humanistyczne |
Uczenie Maszynowe | SVM, wymiar VC, architektury głębokiego uczenia, … | STEM |
Zarządzanie | Organizacja, komunikacja, struktura organizacyjna, … | Inne |
Marketing | Segmentacja, wycena, badania rynkowe, … | Inne |
Genetyka Medyczna | Geny i nowotwory, powszechne zaburzenia chromosomowe, … | Inne |
Różne | Rolnictwo, szacowanie Fermiego, kultura popularna, … | Inne |
Spory Moralne | Wolność słowa, uzależnienia, kara śmierci, … | Nauki Humanistyczne |
Scenariusze Moralne | Wykrywanie przemocy fizycznej, kradzież, zewnętrzności, … | Nauki Humanistyczne |
Żywienie | Metabolizm, witaminy rozpuszczalne w wodzie, cukrzyca, … | Inne |
Filozofia | Sceptycyzm, phronesis, sceptycyzm, dziecko tonące Singera, … | Nauki Humanistyczne |
Prehistoria | Neandertalczycy, Mezoameryka, wyginięcie, narzędzia kamienne, … | Nauki Humanistyczne |
Księgowość Zawodowa | Audyt, sprawozdawczość, regulacje, wycena, … | Inne |
Prawo Zawodowe | Prawo deliktowe, prawo karne, umowy, własność, dowody, … | Nauki Humanistyczne |
Medycyna Zawodowa | Diagnostyka, farmakoterapia, zapobieganie chorobom, … | Inne |
Psychologia Zawodowa | Diagnostyka, biologia i zachowanie, rozwój w ciągu życia, … | Nauki Społeczne |
Public Relations | Teoria mediów, zarządzanie kryzysowe, zbieranie informacji, … | Nauki Społeczne |
Studia Bezpieczeństwa | Bezpieczeństwo środowiskowe, terroryzm, broń masowego rażenia, … | Nauki Społeczne |
Socjologia | Socjalizacja, miasta i społeczność, nierówność i bogactwo, … | Nauki Społeczne |
Polityka Zagraniczna USA | Miękka siła, polityka zagraniczna zimnej wojny, izolacjonizm, … | Nauki Społeczne |
Wirusologia | Epidemiologia, koronawirusy, retrowirusy, wirusy opryszczki, … | Inne |
Religie Świata | Judaizm, chrześcijaństwo, islam, buddyzm, dżinizm, … | Nauki Humanistyczne |
Więcej na temat testu MMLU znajdziesz tutaj: https://arxiv.org/pdf/2009.03300v3
HellaSwag
HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations czyli Trudniejsze zakończenia, dłuższe konteksty i działania niskozłożone dla sytuacji z wrogimi generacjami) jest benchmarkiem oceniającym zdolność AI do przewidywania kolejnych wydarzeń w danej historii, bazując na kontekście. Został opracowany przez zespół uczonych: Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi.
Test wymaga od modeli zrozumienia ciągłości narracyjnej i kontekstu, co sprawdza zdolność AI do logicznego myślenia i przewidywania. Jest to szczególnie ważne w zastosowaniach związanych z przetwarzaniem tekstów narracyjnych, takich jak opowiadania czy artykuły.
Przykład pytania:
Kobieta jest na zewnątrz z wiadrem i psem. Pies biega dookoła, próbując uniknąć kąpieli. Ona…
A. płucze wiadro mydłem i suszy głowę psa.
B. używa węża, aby zapobiec namydleniu psa.
C. moczy psa, a następnie ten znowu ucieka.
D. wchodzi do wanny razem z psem.
Sprawdź pełną dokumentację: https://arxiv.org/pdf/1905.07830
HumanEval
HumanEval to zestaw testów do oceny zdolności modeli językowych w generowaniu kodu komputerowego na podstawie opisu w języku naturalnym. Test został opracowany przez OpenAI. Składa się ze 164 problemów programistycznych, oceniających rozumienie języka, algorytmy i prostą matematykę.
Testy HumanEval są kluczowe dla oceny umiejętności kodowania AI. Modele muszą napisać kod spełniający konkretne wymagania opisane w języku naturalnym, co jest istotne w kontekście automatyzacji programowania i wsparcia dla programistów.
Przykład pytania: „Napisz funkcję, która zwraca liczbę parzystą z listy liczb całkowitych.”
Więcej informacji: HumanEval
GPQA oraz GPQA Diamond
GPQA (General Purpose Question Answering) to zestaw pytań zaprojektowany do oceny zdolności modeli językowych do odpowiadania na pytania ogólne. GPQA Diamond to rozszerzony zestaw zawierający pytania specjalistyczne. Test zawiera zestaw danych składający się z 448 pytań wielokrotnego wyboru, napisanych przez ekspertów z dziedziny biologii, fizyki i chemii. Twórcy zapewniają, że pytania są wysokiej jakości i niezwykle trudne. Eksperci, którzy mają lub robią doktoraty w odpowiednich dziedzinach, osiągają wynik 74% dokładności, podczas gdy wysoko wykwalifikowani testerzy, niebędący ekspertami, osiągają tylko 34% dokładności, pomimo spędzenia średnio ponad 30 minut z nieograniczonym dostępem do sieci (pytania są „odporne na Google”).
Test został opracowany przez grupę badaczy z Uniwersytetu Nowojorskiego pracujących nad zaawansowanymi technikami przetwarzania języka naturalnego: David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman.
Ten test jest używany do oceny wszechstronnych zdolności modeli AI w odpowiadaniu na pytania, które mogą obejmować szeroki zakres tematów i wymagają głębokiego zrozumienia języka, kontekstu oraz zdolności wnioskowania.
Przykład pytania:
Jeśli plemnik z gatunku A zostanie wstrzyknięty do jaja z gatunku B i oba gatunki mają tę samą liczbę chromosomów, co byłoby główną przyczyną śmiertelności powstałej zygoty?
A. specyficzne dla gatunku białka osłonki przejrzystej na jajku nie mogą wiązać plemników z innego gatunku.
B. interakcje epistatyczne między genami różnych gatunków.
C. niezgodności chromosomowe spowodują niepowodzenie mejozy, prowadzące do śmierci zygoty.
D. rekombinacja chromosomowa nie wystąpi w różnych gatunkach.
Więcej informacji: GPQA
Wedza to nie jest coś, co się wie, ale coś, co się robi z tym, co się wie.
Albert Einstein
GSM8K
GSM8K (Grade School Math 8K) to zbiór ponad 8 tysięcy zadań matematycznych na poziomie szkoły podstawowej, używany do oceny zdolności AI do rozwiązywania problemów matematycznych. Test został opracowany przez pracowników OpenAI. Rozwiązanie tych problemów zajmuje od 2 do 8 kroków, a rozwiązania obejmują przede wszystkim wykonanie sekwencji elementarnych obliczeń przy użyciu podstawowych operacji arytmetycznych (+ – ×÷) w celu uzyskania ostatecznej odpowiedzi.
GSM8K sprawdza umiejętności rozumowania matematycznego i arytmetycznego. Jest używany do oceny, jak dobrze modele AI mogą radzić sobie z podstawowymi problemami matematycznymi, które są fundamentem bardziej zaawansowanych zadań.
Przykład pytania:
Beata piecze w ciągu tygodnia 4 partie ciastek, po 2 tuziny każda. Jeśli te ciastka są równo podzielone między 16 osób, ile ciastek spożywa każda osoba w tygodniu?
Więcej informacji: GSM8K
ARC Challenge
ARC Challenge (AI2 Reasoning Challenge) to zestaw 7787 trudnych pytań z różnych dziedzin nauki, mający na celu testowanie umiejętności rozumowania i wnioskowania modeli AI. Został opracowany przez Allen Institute for AI, organizację non-profit skupioną na badaniach nad sztuczną inteligencją.
Test skupia się na głębokim rozumieniu naukowym i umiejętności stosowania wiedzy w różnych kontekstach. Jest używany do oceny zdolności AI do rozwiązywania skomplikowanych problemów naukowych, które wymagają zaawansowanego rozumienia i analizy danych.
Przykład pytania:
Który proces jest odpowiedzialny za przemianę wody w parę wodną?
A. kondensacja
B. parowanie
C. Sublimacja
D. Krystalizacja.
Więcej informacji: ARC Challenge
BIG-bench
BIG-bench (Beyond the Imitation Game Benchmark) to wszechstronny zestaw testów oceniających różnorodne umiejętności AI, od rozumienia języka po kreatywność i zdolności logiczne. Obecnie składa się z 204 zadań, do których przyczyniło się 450 autorów ze 132 instytucji. BIG-bench obejmuje szeroki zakres zadań, które oceniają różne aspekty inteligencji AI.
Benchmark ten jest używany do oceny różnych zdolności modeli AI, takich jak zdrowy rozsądek, zrozumienie języka, kreatywność, i umiejętności logiczne. BIG-bench pomaga w ocenie kompleksowej inteligencji AI i jej zdolności do radzenia sobie z wieloma zadaniami jednocześnie.
Przykład pytania:
Znajdź ruch w pozycji szachowej dający szach mat.
Więcej informacji: BIG-bench
WinoGrande
WinoGrande to rozszerzona wersja Winograd Schema Challenge, testująca zdolności AI do rozumienia kontekstu i zdroworozsądkowego wnioskowania.
Opracowany przez Allen Institute for AI, WinoGrande zawiera bardziej rozbudowane i złożone zadania, które wymagają od modeli umiejętności rozwiązywania problemów kontekstowych. Test jest używany do oceny, jak dobrze modele AI mogą radzić sobie z zadaniami wymagającymi rozumienia kontekstu i logicznego myślenia, co jest kluczowe w przetwarzaniu języka naturalnego i zdroworozsądkowym wnioskowaniu.
Przykład pytania:
Alicja dała swojej przyjaciółce prezent, ponieważ chciała jej zrobić niespodziankę. Kto kogo chciał zaskoczyć?”
A. Alicja przyjaciółkę
B. Przyjaciółka Alicji, Alicję.
Więcej informacji: AllenAI – WinoGrande
MATH
MATH to benchmark oceniający zdolności AI do rozwiązywania problemów matematycznych na różnych poziomach zaawansowania.
Opracowany przez OpenAI, test ten obejmuje zadania od podstawowych działań arytmetycznych po zaawansowane problemy algebraiczne i geometryczne.
MATH jest używany do oceny, jak dobrze modele AI mogą radzić sobie z problemami matematycznymi, które wymagają logicznego myślenia i analizy. Jest to szczególnie ważne w kontekście zastosowań edukacyjnych i naukowych.
Przykład pytania:
Rozwiąż równanie x + 2 = 5.
Więcej informacji: Arxiv – MATH
Czy modele AI mogą osiągnąć 100% we wszystkich testach?
Osiągnięcie perfekcyjnych wyników we wszystkich testach przez modele AI jest teoretycznie możliwe, ale niezwykle trudne do zrealizowania. Wysoka skuteczność w tych benchmarkach oznaczałaby, że AI osiągnęła bardzo wysoki poziom zrozumienia i zdolności adaptacyjnych w różnorodnych zadaniach.
Inteligencja to zdolność adaptacji do zmian
Stephen Hawking
Osiągnięcie 100% mogłoby wskazywać na kilka kluczowych kwestii:
Granice Testów: Jeśli wszystkie modele AI osiągają perfekcyjne wyniki, może to sugerować, że obecne testy nie są wystarczająco wymagające i nie odzwierciedlają prawdziwych wyzwań stojących przed AI w rzeczywistych zastosowaniach. Konieczne byłoby opracowanie bardziej zaawansowanych benchmarków, które lepiej oceniałyby zdolności AI.
Zastosowania AI: Perfekcyjne wyniki mogłyby przyspieszyć wdrożenie AI w nowych obszarach, takich jak medycyna, edukacja, czy prawo, gdzie precyzja i niezawodność są kluczowe. Mogłoby to prowadzić do znaczących zmian w tych sektorach, zwiększając efektywność i dostępność usług.
Etyka i Regulacje: Wysoka skuteczność AI rodzi pytania etyczne i regulacyjne. Jak zapewnić, że AI jest używana w sposób odpowiedzialny i etyczny? Jakie regulacje powinny zostać wprowadzone, aby zapobiec nadużyciom i zapewnić, że technologia ta służy dobru publicznemu?
Współpraca Człowieka z AI: Perfekcyjne AI mogłoby zrewolucjonizować sposób, w jaki ludzie współpracują z technologią. Zamiast postrzegać AI jako narzędzie, moglibyśmy zacząć traktować je jako partnera, z którym współpracujemy, aby osiągnąć lepsze wyniki.