Premiera modelu Sora 2 ogłoszona przez OpenAI to jedno z najważniejszych wydarzeń tego tygodnia w sztucznej inteligencji generatywnej. Już pierwsza wersja Sora z 2024 roku była traktowana jako przełom w możliwości tworzenia realistycznych filmów na podstawie krótkich poleceń tekstowych. Teraz jednak pojawia się druga odsłona, która rozszerza zakres możliwości i pokazuje, że generowanie wideo staje się coraz bliższe symulacji prawdziwego świata.
Co nowego w Sora 2?
W odróżnieniu od swojego poprzednika, Sora 2 dużo lepiej radzi sobie z zachowaniem spójności i logiki fizycznej. Jeśli w scenie piłka uderza w tablicę, odbija się od niej, zamiast w nienaturalny sposób trafiać do kosza. Ruchy postaci są bardziej wiarygodne, a całość sprawia wrażenie uchwycenia prawdziwego fragmentu rzeczywistości. W nowej wersji dodano także synchronizację obrazu i dźwięku. Dialogi i efekty akustyczne są dopasowane do wydarzeń widocznych na ekranie, co sprawia, że wideo staje się pełniejszym doświadczeniem.
Nowa aplikacja społecznościowa
OpenAI zwraca uwagę, że Sora 2 to nie tylko model techniczny, ale także fundament nowej aplikacji społecznościowej dostępnej na iOS. Aplikacja o nazwie Sora pozwala użytkownikom generować i przekształcać wideo, odkrywać treści w spersonalizowanym strumieniu oraz – co szczególnie intrygujące – wstawiać siebie lub znajomych do tworzonych scen. Mechanizm ten nazwano „cameos”. Działa on w ten sposób, że po krótkim nagraniu weryfikacyjnym system jest w stanie odtworzyć wizerunek i głos danej osoby w różnych kontekstach filmowych. Co ważne, OpenAI podkreśla wagę zgody – właściciel wizerunku decyduje, kto może go używać i może w każdej chwili cofnąć pozwolenie.
Pod względem technologicznym Sora 2 wydaje się być czymś więcej niż tylko programem do łączenia pikseli. Widać w nim zalążki wewnętrznego „symulatora świata”. Błędy, które pojawiają się w generowanych nagraniach, mają charakter podobny do pomyłek człowieka, który źle ocenia warunki fizyczne, a nie maszyny, która gubi spójność obrazu. To sugeruje, że model buduje pewną uproszczoną wersję zasad rządzących światem i próbuje je konsekwentnie stosować.
Zastosowania Sora 2
Możliwości zastosowania Sora 2 są bardzo szerokie. W branży filmowej i reklamowej może posłużyć jako narzędzie do szybkiego prototypowania scen, w mediach społecznościowych jako źródło kreatywnych i angażujących treści, a w edukacji jako środek wizualizacji zjawisk trudnych do wyjaśnienia jedynie słowem czy statycznym obrazem. Równie obiecujące wydają się zastosowania w grach komputerowych, gdzie generowane sceny mogą być dynamicznie włączane do narracji i dopasowywane do działań gracza.
Jak zwykle przy tak zaawansowanej technologii pojawiają się jednak pytania o bezpieczeństwo i etykę. Możliwość realistycznego odtworzenia czyjegoś głosu i twarzy wiąże się z ryzykiem nadużyć, na przykład w kontekście dezinformacji lub tworzenia niechcianych treści z udziałem czyjegoś wizerunku. OpenAI stara się temu przeciwdziałać, wprowadzając mechanizmy kontroli rodzicielskiej, ograniczenia dla młodszych użytkowników oraz narzędzia pozwalające kształtować to, co pojawia się w strumieniu treści. Ważnym elementem jest także transparentność – użytkownicy wiedzą, jakie dane udostępniają i jak mogą nimi zarządzać.
Dostęp do Sora 2
Na razie dostęp do Sora 2 odbywa się w modelu zaproszeniowym, początkowo w Stanach Zjednoczonych i Kanadzie. Aplikacja jest bezpłatna w wersji podstawowej, z limitem liczby generacji, natomiast w planach jest także dostęp premium w ramach ChatGPT Pro oraz przyszłe API, które otworzy model dla programistów i firm.