Czym jest generatywna sztuczna inteligencja?
Generatywna sztuczna inteligencja, skracana do GenAI, obejmuje modele komputerowe zdolne do samodzielnego tworzenia nowych danych – tekstu, obrazów, dźwięku lub kodu – na podstawie statystycznych zależności wyuczonych z dużych zbiorów treningowych. W odróżnieniu od klasycznych rozwiązań dyskryminacyjnych, które przyporządkowują dane do kategorii, systemy generatywne próbują odtworzyć rozkład prawdopodobieństwa obserwacji i dzięki temu potrafią wygenerować przykłady nieistniejące wcześniej w zbiorze.
Dlaczego powstało to podejście?
Pierwsze próby modelowania generatywnego pojawiały się już przy okazji ukrytych modeli Markowa i sieci Bayesa w latach 80., lecz przełomem okazało się zastosowanie głębokich sieci neuronowych. W 2014 r. Ian Goodfellow wraz z zespołem z Uniwersytetu Montrealskiego przedstawił koncepcję Generative Adversarial Networks (GAN), która otworzyła drogę do syntezy fotorealistycznych obrazów. Równolegle badacze z Google Brain i DeepMind rozwijali wariacyjne autoenkodery oraz transformery, co udoskonaliło jakość generowanego tekstu i kodu. Głównym celem tych prac było dostarczenie narzędzi do syntetycznego rozszerzania danych, automatyzacji tworzenia treści i redukcji kosztów manualnej produkcji materiałów.
Jak działa?
Modele GenAI uczą się relacji między elementami danych poprzez wielkoskalowe uczenie głębokie. W przypadku tekstu dominują architektury transformerowe, które poddaje się pre-treningowi na korpusach liczących setki miliardów tokenów. Podczas generacji algorytm przewiduje kolejne słowo lub znak, bazując na wcześniej wyprodukowanym kontekście. W obszarze grafiki popularne są sieci GAN, dyfuzyjne i autokoderowe, które progresywnie kształtują strukturę obrazu od losowego szumu aż do spójnej reprezentacji wizualnej. Z kolei systemy audio i wideo łączą techniki rekurencyjne z uczeniem probabilistycznym, aby kontrolować temporalną koherencję wygenerowanych sekwencji.
Zastosowania w praktyce
GenAI znajduje zastosowanie w komercyjnych narzędziach do redagowania treści marketingowych, automatycznej lokalizacji oprogramowania czy personalizacji interfejsów. Lekarze eksperymentują z modelami dyfuzyjnymi w celu poprawy rozdzielczości skanów tomografii komputerowej, a inżynierowie oprogramowania wykorzystują generatory kodu do przyspieszania pisania testów jednostkowych. W branży rozrywkowej systemy te wspierają tworzenie realistycznych postaci i środowisk, czego przykładem są wewnętrzne narzędzia studiów filmowych opierające się na GAN-ach do syntezy tekstur.
Zalety i ograniczenia
Największą korzyścią z wykorzystania GenAI jest zdolność do szybkiej produkcji treści, która w wielu przypadkach dorównuje materiałom tworzonym ręcznie. Przy odpowiednim nadzorze może to skrócić czas R&D i obniżyć koszty. Jednocześnie modele te wymagają znacznych zasobów obliczeniowych, a ich jakość zależy od różnorodności i czystości danych treningowych. Kluczowym ograniczeniem pozostaje zjawisko halucynacji, czyli generowania pozornie wiarygodnych, lecz nieprawdziwych informacji.
Na co uważać?
Organizacje wdrażające GenAI powinny kontrolować zgodność generowanych treści z prawem autorskim i przepisami o ochronie danych osobowych. Modele potrafią nieumyślnie ujawniać fragmenty poufnych dokumentów lub wzmacniać istniejące uprzedzenia społeczne. Nieodzowna staje się więc weryfikacja wyników przez ekspertów dziedzinowych, rozwijanie metod filtracji danych oraz dokumentowanie procesu uczenia, co ułatwia późniejszy audyt.
Dodatkowe źródła
Szczegółowe omówienie zagadnień generatywnych przedstawiono na stronie Wikipedia – Generative artificial intelligence. Oryginalną publikację o sieciach GAN można znaleźć w serwisie arXiv:1406.2661. Aktualne wyniki dotyczące modeli dyfuzyjnych udostępniane są przez zespół OpenAI na arXiv:2204.06125, a teoretyczne podstawy transformera zostały opisane w pracy arXiv:1706.03762.


