Artykuły Co to jest AI

SLM – małe modele językowe lepsze niż duże?

Mrowka w rękawicach bokserskich stoi na powalonym przez siebie słoniu

W świecie technologii od dawna trwa wyścig największych modeli językowych. Jednak ostatnie miesiące przyniosły znaczące zmiany. Firmy takie jak Apple i Microsoft wprowadzają na rynek małe modele językowe (Small Language Models, SLM). Modele te na wielu płaszczyznach mogą dorównywać, a nawet przewyższać osiągnięcia swoich większe odpowiedników.

Ewolucja dużych (LLM) i małych (SLM) modeli językowych

Firmy technologiczne, takie jak Meta, ogłaszają wprowadzenie ogromnych modeli językowych, jak Llama 3 z 400 miliardami parametrów. Z kolei, chociaż nie zostało to oficjalnie potwierdzone, szacuje się, że GPT-4 ma około 1,8 biliona parametrów. W odpowiedzi na rosnące modele językowe, Apple i Microsoft zaczęły wprowadzać mniejsze modele. Mimo mniejszych rozmiarów potrafią one generować tekst na wysokim poziomie.

Apple i Microsoft wprowadzają SLM

10 czerwca, na Worldwide Developers Conference, Apple ogłosiło modele „Apple Intelligence” z około 3 miliardami parametrów. Z kolei Microsoft w kwietniu wprowadził rodzinę modeli Phi-3, zawierającą modele z liczbą parametrów od 3,8 do 14 miliardów.

CEO OpenAI, Sam Altman, uważa, że kończy się era gigantycznych modeli. Podczas serii testów, najmniejszy model Microsoftu, Phi-3-mini, rywalizował z GPT-3.5 (175 miliardów parametrów) i przewyższał Google Gemma (7 miliardów parametrów) na wielu płaszczyznach. Model Phi-3-small, mający 7 miliardów parametrów, znacząco przewyższał GPT-3.5 w wielu testach.

Przyczyny sukcesu SLM

Aaron Mueller, badacz modeli językowych na Northeastern University w Bostonie, podkreśla, że zwiększanie liczby parametrów nie jest jedynym sposobem na poprawę wydajności modelu. Trening na wysokiej jakości danych może przynieść podobne rezultaty. Modele Phi Microsoftu były trenowane na precyzyjnych danych o „podręcznikowej jakości”, co czyni je łatwiejszymi do nauki. Zwłaszcza w porównaniu z różnorodnymi tekstami z internetu, na których zazwyczaj opierają się duże modele językowe. Apple podobnie trenowało swoje modele SLM na bardziej złożonych i bogatych zestawach danych.

Zalety SLM

Małe modele językowe (SLM) zużywają znacznie mniej energii niż ich większe odpowiedniki. Pozwala to na ich działanie lokalnie na urządzeniach, takich jak smartfony i laptopy, bez potrzeby łączenia się z chmurą. Dzięki temu dane użytkowników są bardziej chronione, a modele mogą być spersonalizowane.

Demokratyzacja dostępu do AI

SLM mogą zdemokratyzować dostęp do modeli językowych. Umożliwi to mniejszym firmom i laboratoriom korzystanie z zaawansowanych technologii bez konieczności ponoszenia ogromnych kosztów. Mueller wskazuje, że SLM mogą być trenowane na tańszym sprzęcie. Dzięki temu czyni je to bardziej dostępnymi dla tych z mniejszymi zasobami, a jednocześnie wystarczająco wydajnymi dla konkretnych zastosowań.

Przyszłość badań nad AI

SLM mogą również przyczynić się do lepszego zrozumienia, jak dzieci uczą się języka. Alex Warstadt, badacz z ETH Zurich, organizuje wyzwanie BabyLM, w którym uczestnicy optymalizują trening modeli językowych na małych zbiorach danych. SLM mogą pomóc w odkryciu nowych tajemnic ludzkiej kognicji i poprawić generatywne AI.

Małe modele językowe zyskują na znaczeniu jako efektywna alternatywa dla dużych modeli. Dzięki mniejszemu zużyciu energii, lepszej ochronie danych i większej dostępności dla mniejszych graczy, SLM mają potencjał, aby zrewolucjonizować przyszłość sztucznej inteligencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *