Słownik AI

Model bazowy – ang. Foundation model, FM

Model bazowy (Foundation model) – definicja i zastosowania

Czym jest Model bazowy (Foundation model)?

Model bazowy, określany w literaturze angielskiej jako Foundation model (FM), to wielkoskalowa sieć neuronowa wytrenowana w trybie samo-nadzorowanym lub częściowo samo-nadzorowanym na obszernej, różnorodnej kolekcji danych. Celem jest wytworzenie reprezentacji umożliwiających adaptację do szerokiego wachlarza zadań bez potrzeby uczenia każdorazowo od zera. Określenie zostało spopularyzowane w raporcie Stanford Center for Research on Foundation Models (2021), który podkreślił, że te same parametry sieci mogą być udoskonalane do generowania tekstu, kodu, obrazów czy analizy sekwencji biologicznych.

Kontekst historyczny i rozwój

Pierwsze zalążki idei powstały wraz z modelami językowymi GPT-2 (OpenAI, 2019) oraz BERT (Google, 2018), jednak za przełomowy krok uważa się publikację GPT-3 (Brown i in., 2020) liczącego 175 miliardów parametrów. W kolejnych latach pojawiły się modele PaLM (Google, 2022), LLaMA (Meta, 2023) oraz Diffusion Models dla obrazów. Kluczowy wpływ wywarła także architektura Transformer zaproponowana przez Google Brain w 2017 roku, która ułatwia równoległe przetwarzanie sekwencji i skalowanie rozmiaru sieci.

Jak dokładnie działa Model bazowy (Foundation model)

Podczas fazy pre-treningu model otrzymuje ogromny, wielomodalny strumień danych, np. tekst, obrazy, kod źródłowy lub sygnały biologiczne. Uczy się rekonstrukcji brakujących fragmentów (maskowanie) lub przewidywania kolejnych elementów sekwencji (autouzupełnianie). W ten sposób tworzy wewnętrzną przestrzeń reprezentacji uwzględniającą semantykę oraz zależności statystyczne. Po zakończeniu pre-treningu model można dostroić niewielką liczbą przykładów (few-shot) lub instrukcjami (in-context learning), co znacząco skraca czas i koszt wdrożenia w porównaniu z klasycznym podejściem, gdzie każdy algorytm trenowany był od podstaw na dedykowanym, wąskim zbiorze danych.

Zastosowania w praktyce

Wersję językową FM można błyskawicznie wykorzystać do streszczania dokumentów, automatyzacji korespondencji czy generowania kodu. Modele obrazowe wspomagają tworzenie grafik koncepcyjnych i fotorealistycznych wizualizacji produktów. W biotechnologii modele sekwencyjne pomagają prognozować strukturę białek, co przyspiesza projektowanie leków. Przykładowo, dostrojony pod kątem obsługi klienta GPT-3 potrafi w kilku sekund przetworzyć historię zgłoszeń i wygenerować spersonalizowaną odpowiedź.

Zalety i ograniczenia

Główna przewaga to możliwość ponownego użycia tego samego, ogólnego modelu w licznych domenach, co znacząco ułatwia integrację i optymalizację zasobów. Użytkownik zyskuje również lepszą jakość predykcji dzięki wykorzystaniu wiedzy zakodowanej w milionach dokumentów. Mimo to, FM wciąż mogą reprodukować uprzedzenia zawarte w danych, generować halucynacje oraz wymagać znacznych mocy obliczeniowych przy treningu i inferencji.

Na co uważać?

Przy wdrożeniach należy zwrócić uwagę na licencję i możliwe ograniczenia dotyczące praw autorskich do danych użytych podczas uczenia. Konieczna jest ponadto dokładna walidacja rezultatów, zwłaszcza w dziedzinach wysokiego ryzyka, jak medycyna czy prawo. Ważne jest także monitorowanie zużycia energii, ponieważ duże modele generatywne mogą być kosztowne klimatycznie.

Dodatkowe źródła

Szczegółowe omówienie zagadnienia można znaleźć w raporcie On the Opportunities and Risks of Foundation Models. Z kolei struktura Transformer została opisana w artykule Transformer – Wikipedia. Osoby zainteresowane historią rozwoju dużych modeli językowych mogą sięgnąć po publikacje BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding oraz Language Models are Few-Shot Learners.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *