Artykuły Graficzne Narzędzia AI

Przewodnik po modelach Sztucznej Inteligencji do generowania grafiki

Twarz wygenerowana metodą GAN

Jednym z najbardziej fascynujących zastosowań AI jest generowanie grafiki. Od realistycznych portretów ludzi, przez surrealistyczne krajobrazy, aż po artystyczne transformacje zdjęć.

Modele AI potrafią tworzyć zadziwiające wizualizacje, które jeszcze kilka lat temu byłyby nieosiągalne. W tym artykule przyjrzymy się bliżej różnym modelom sztucznej inteligencji wykorzystywanym do generowania grafiki, zrozumiemy, jak działają i jakie aplikacje opierają się na ich mocy.

GAN (Generative Adversarial Networks)

FaceApp: Aplikacja do edycji zdjęć, która za pomocą GANów potrafi zmieniać wygląd twarzy, np. postarzać ją lub zmieniać płeć. Model uczy się na wielu zdjęciach i potrafi dokładnie modyfikować cechy twarzy.

This Person Does Not Exist: Strona internetowa, która generuje realistyczne obrazy twarzy ludzi, którzy nie istnieją. GANy tutaj uczą się, jak wyglądają ludzkie twarze i tworzą nowe, unikalne wizerunki.

Portret Edmonda Belamy’ego, 2018, stworzony przez GAN (Generative Adversarial Network). Sprzedany za 432 500 dolarów 25 października 2018 roku w domu aukcyjnym Christie’s w Nowym Jorku. Obraz ©Obvious

VAE (Variational Autoencoders)

Google DeepDream: System, który przekształca zdjęcia w surrealistyczne obrazy. VAE tutaj analizuje zdjęcie, rozumie jego strukturę i dodaje fantastyczne elementy, tworząc oniryczne wizje.

Prisma: Aplikacja, która zmienia zdjęcia w różne style artystyczne. VAE uczą się różnych stylów malarskich i potrafią zastosować je do dowolnego zdjęcia.

PixelRNN i PixelCNN

PixelCNN++: Ulepszona wersja PixelCNN, która generuje wysokiej jakości obrazy. Modele te uczą się, jak powinny wyglądać poszczególne piksele na obrazie, biorąc pod uwagę ich sąsiedztwo.

WaveNet: System do generowania mowy, który używa architektury podobnej do PixelRNN. Uczy się, jakie dźwięki są typowe dla ludzkiej mowy i potrafi je generować.

Transformery

DALL-E: Model od OpenAI, który generuje obrazy na podstawie opisów tekstowych. Używa architektury transformatorowej, która jest bardzo dobra w zrozumieniu kontekstu słów i przekształceniu go w obrazy.

Image GPT: Adaptacja modelu GPT do generowania obrazów. Działa podobnie do DALL-E, ale jest bardziej skoncentrowany na samych obrazach.

Modele Diffusion

SDXL (Stable Diffusion XL): SDXL to program komputerowy, który używa specjalnych matematycznych modeli (nazywanych modelami dyfuzji) do tworzenia obrazów. Zaczyna od bardzo prostego szkicu, a następnie stopniowo dodaje więcej i więcej szczegółów, aż obraz stanie się bardzo dokładny i wysokiej jakości.

SD-XL 1.0-base to konkretna wersja tego programu. Możesz to sobie wyobrazić jako zespół ekspertów, każdy z nich jest dobry w różnych rzeczach. Na początku jeden ekspert (model bazowy) tworzy ogólny zarys obrazu, ale jest on trochę zamazany i niejasny (zaszumiony). Potem inny ekspert (model do rafinacji) wchodzi i pracuje nad tym obrazem, dodając szczegóły i poprawiając jakość, aż wszystko będzie wyglądać świetnie.

Opis Modelu: Model został opracowany przez Stability AI i jest to model generatywny tzw. Text2Image do generowania obrazów. Wykorzystuje dwie stałe, wstępnie wytrenowane enkodery tekstowe (OpenCLIP-ViT/G i CLIP-ViT/L). Model jest dostępny na licencji CreativeML Open RAIL++-M.

DDPM (Denoising Diffusion Probabilistic Models): Model do generowania obrazów, który również używa technik dyfuzji. Działa poprzez stopniowe usuwanie szumów z obrazu, aż osiągnie pożądany wynik.

Źródło: https://paperswithcode.com/method/pixelrnn

Wszystkie te modele i systemy są rozwijane, a nowe wersje i ulepszenia są regularnie wprowadzane.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *