Czym jest Model bazowy (Foundation model)?
Model bazowy, określany w literaturze angielskiej jako Foundation model (FM), to wielkoskalowa sieć neuronowa wytrenowana w trybie samo-nadzorowanym lub częściowo samo-nadzorowanym na obszernej, różnorodnej kolekcji danych. Celem jest wytworzenie reprezentacji umożliwiających adaptację do szerokiego wachlarza zadań bez potrzeby uczenia każdorazowo od zera. Określenie zostało spopularyzowane w raporcie Stanford Center for Research on Foundation Models (2021), który podkreślił, że te same parametry sieci mogą być udoskonalane do generowania tekstu, kodu, obrazów czy analizy sekwencji biologicznych.
Kontekst historyczny i rozwój
Pierwsze zalążki idei powstały wraz z modelami językowymi GPT-2 (OpenAI, 2019) oraz BERT (Google, 2018), jednak za przełomowy krok uważa się publikację GPT-3 (Brown i in., 2020) liczącego 175 miliardów parametrów. W kolejnych latach pojawiły się modele PaLM (Google, 2022), LLaMA (Meta, 2023) oraz Diffusion Models dla obrazów. Kluczowy wpływ wywarła także architektura Transformer zaproponowana przez Google Brain w 2017 roku, która ułatwia równoległe przetwarzanie sekwencji i skalowanie rozmiaru sieci.
Jak dokładnie działa Model bazowy (Foundation model)
Podczas fazy pre-treningu model otrzymuje ogromny, wielomodalny strumień danych, np. tekst, obrazy, kod źródłowy lub sygnały biologiczne. Uczy się rekonstrukcji brakujących fragmentów (maskowanie) lub przewidywania kolejnych elementów sekwencji (autouzupełnianie). W ten sposób tworzy wewnętrzną przestrzeń reprezentacji uwzględniającą semantykę oraz zależności statystyczne. Po zakończeniu pre-treningu model można dostroić niewielką liczbą przykładów (few-shot) lub instrukcjami (in-context learning), co znacząco skraca czas i koszt wdrożenia w porównaniu z klasycznym podejściem, gdzie każdy algorytm trenowany był od podstaw na dedykowanym, wąskim zbiorze danych.
Zastosowania w praktyce
Wersję językową FM można błyskawicznie wykorzystać do streszczania dokumentów, automatyzacji korespondencji czy generowania kodu. Modele obrazowe wspomagają tworzenie grafik koncepcyjnych i fotorealistycznych wizualizacji produktów. W biotechnologii modele sekwencyjne pomagają prognozować strukturę białek, co przyspiesza projektowanie leków. Przykładowo, dostrojony pod kątem obsługi klienta GPT-3 potrafi w kilku sekund przetworzyć historię zgłoszeń i wygenerować spersonalizowaną odpowiedź.
Zalety i ograniczenia
Główna przewaga to możliwość ponownego użycia tego samego, ogólnego modelu w licznych domenach, co znacząco ułatwia integrację i optymalizację zasobów. Użytkownik zyskuje również lepszą jakość predykcji dzięki wykorzystaniu wiedzy zakodowanej w milionach dokumentów. Mimo to, FM wciąż mogą reprodukować uprzedzenia zawarte w danych, generować halucynacje oraz wymagać znacznych mocy obliczeniowych przy treningu i inferencji.
Na co uważać?
Przy wdrożeniach należy zwrócić uwagę na licencję i możliwe ograniczenia dotyczące praw autorskich do danych użytych podczas uczenia. Konieczna jest ponadto dokładna walidacja rezultatów, zwłaszcza w dziedzinach wysokiego ryzyka, jak medycyna czy prawo. Ważne jest także monitorowanie zużycia energii, ponieważ duże modele generatywne mogą być kosztowne klimatycznie.
Dodatkowe źródła
Szczegółowe omówienie zagadnienia można znaleźć w raporcie On the Opportunities and Risks of Foundation Models. Z kolei struktura Transformer została opisana w artykule Transformer – Wikipedia. Osoby zainteresowane historią rozwoju dużych modeli językowych mogą sięgnąć po publikacje BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding oraz Language Models are Few-Shot Learners.


