Kilka dni temu Google ogłosiło wprowadzenie Google Gemini, czyli lepszej i nowszej wersji Barda – bezpośredniej konkurencji dla ChatGPT, o bardzo porównywalnych możliwościach, wykorzystujących generatywne AI. Na odpowiedź OpenAI nie trzeba było długo czekać. Twórcy ChatGPT ogłosili właśnie swoje najnowsze dzieło, które może mocno zrewolucjonizować kolejny segment rynku. Sora – bo tak nazywa się nowe narzędzie od OpenAI – pozwoli użytkownikom w łatwy sposób, za pomocą wpisania prompta, utworzyć mega realistyczne wideo na praktycznie dowolny temat. To wielkie wydarzenie, bo takiego rozwiązania świat sztucznej inteligencji wypatrywał z zapartym tchem.
Czym jest Sora?
Sora jest nowym modelem sztucznej inteligencji generatywnej (GenAI) opracowanym przez OpenAI, zdolnym do przekształcania tekstowych poleceń w wideo. Ten zaawansowany model AI może generować filmy trwające do minuty, utrzymując przy tym wysoką jakość wizualną oraz wierność wobec podanych przez użytkownika instrukcji.
Sora wyróżnia się umiejętnością tworzenia skomplikowanych scen z wieloma postaciami, określonymi rodzajami ruchu, oraz dokładnymi detalami dotyczącymi przedmiotów i tła. Model ten rozumie, jak obiekty istnieją w fizycznym świecie, potrafi dokładnie interpretować rekwizyty i generować przekonujące postacie, które wyrażają żywe emocje.
OpenAI podkreśla, że Sora jest krokiem naprzód w dziedzinie generowania wideo z tekstu, oferując nowe możliwości dla twórców treści, mimo że model ten nadal może mieć trudności z bardziej złożonymi poleceniami i nie jest jeszcze doskonały.
Czy Sora zrewolucjonizuje branżę video?
Sora może być postrzegana jako rewolucja w branży wideo, ponieważ wprowadza znaczący postęp w generowaniu wideo z tekstu, obszarze, który do tej pory był wyzwaniem dla technologii sztucznej inteligencji. Przez lata, generowanie obrazów i tekstowych odpowiedzi na podstawie poleceń stało się znacznie lepsze dzięki platformom GenAI, ale generowanie wideo z tekstu pozostawało obszarem, który znacznie odstawał z powodu dodatkowej złożoności analizy poruszających się obiektów w trójwymiarowej przestrzeni.
Sora, dzięki swojej zdolności do tworzenia wysokiej jakości wideo trwających do minuty z dokładnym odwzorowaniem skomplikowanych scen, wielu postaci, specyficznych rodzajów ruchu oraz szczegółowych elementów tła i przedmiotów, stanowi przełom w tej dziedzinie. Model ten nie tylko rozumie, jak obiekty istnieją w fizycznym świecie, ale także potrafi interpretować rekwizyty i generować postacie wyrażające emocje, co otwiera nowe możliwości dla twórców treści wideo.
Dodatkowo, fakt, że OpenAI planuje wprowadzić Sora po przeprowadzeniu testów dotyczących bezpieczeństwa i etyki, podkreśla dążenie do odpowiedzialnego wykorzystania tej technologii. Chociaż Sora nie jest jeszcze doskonała i wymaga dalszego rozwoju, jej potencjał do tworzenia złożonych i emocjonalnie rezonujących wideo z prostych tekstowych poleceń może zrewolucjonizować sposób, w jaki wideo są produkowane, zmieniając branżę wideo i otwierając nowe ścieżki dla kreatywności i ekspresji.
Jak działa Sora?
Sora działa na zasadzie zaawansowanego modelu sztucznej inteligencji generatywnej (GenAI), który przekształca tekstowe polecenia w wideo. Proces ten rozpoczyna się od wprowadzenia przez użytkownika tekstowego opisu sceny, postaci, akcji lub dowolnego innego elementu, który ma zostać przedstawiony w wideo. Na podstawie tego opisu, Sora analizuje i interpretuje podane instrukcje, aby zrozumieć kontekst, postacie, ruchy oraz inne szczegółowe aspekty wymienione w poleceniu.
Model ten wykorzystuje głębokie uczenie się i zaawansowane algorytmy przetwarzania języka naturalnego do generowania wizualizacji, które odzwierciedlają opisane scenariusze. Sora jest zdolna do tworzenia skomplikowanych scen z wieloma postaciami, specyficznymi rodzajami ruchu, oraz dokładnymi detalami dotyczącymi przedmiotów i tła, utrzymując przy tym wysoką jakość wizualną i wierność wobec podanych przez użytkownika instrukcji.
Kluczową cechą Sory jest jej zdolność do rozumienia, jak obiekty istnieją w fizycznym świecie, co pozwala na dokładne interpretowanie rekwizytów i generowanie przekonujących postaci wyrażających żywe emocje. Model ten może również tworzyć wielokrotne ujęcia w jednym wygenerowanym wideo, zachowując spójność postaci i stylu wizualnego.
Mimo że Sora jest przełomem w generowaniu wideo z tekstu, OpenAI podkreśla, że model ten nie jest doskonały i może mieć trudności z bardziej złożonymi poleceniami. Przed udostępnieniem Sory szerszej publiczności, OpenAI planuje przeprowadzić testy bezpieczeństwa i etyki, aby zapewnić, że system nie będzie generował dezinformacji czy treści pełnych nienawiści.
Przykłady video wygenerowanych dzięki temu narzędziu
Choć model Sora nie jest jeszcze powszechnie dostępny szerokiemu gronu użytkowników, OpenAI wraz z ogłoszeniem jego nadejścia podzieliło się za pomocą portali społecznościowych i swojej strony internetowej kilkoma publikacjami możliwości modelu.
Czy Sora jest dostępna dla wszystkich użytkowników?
Sora nie jest jeszcze dostępna dla wszystkich użytkowników. OpenAI podjęło decyzję o wprowadzeniu „kroków bezpieczeństwa” przed udostępnieniem Sory w swoich produktach. Firma planuje współpracować z ekspertami, którzy będą „adwersaryjnie” testować model w różnych obszarach, takich jak dezinformacja, treści pełne nienawiści i stronniczość, aby zapewnić, że system jest bezpieczny i etyczny w użyciu przed jego szerszym wdrożeniem.
OpenAI również udziela dostępu do Sory ograniczonej liczbie wizualnych artystów, projektantów i filmowców, aby uzyskać informacje zwrotne na temat tego, jak model może być najbardziej pomocny dla profesjonalistów zajmujących się tworzeniem treści. Firma podkreśla, że chce zbudować narzędzia do wykrywania wprowadzających w błąd treści, takie jak klasyfikator wykrywający, czy wideo zostało wygenerowane przez Sorę, i planuje w przyszłości dołączyć metadane C2PA, jeśli model zostanie wdrożony w produkcie OpenAI.
Kiedy narzędzie będzie dostępne dla wszystkich użytkowników?
OpenAI zaznacza, że przed udostępnieniem Sory szerszej publiczności, firma planuje podjąć „kroki bezpieczeństwa” i współpracować z ekspertami w celu przeprowadzenia testów, które mają na celu zapewnienie, że system nie będzie generował dezinformacji czy treści pełnych nienawiści. Firma również udziela dostępu do Sory ograniczonej liczbie wizualnych artystów, projektantów i filmowców, aby uzyskać informacje zwrotne, które pomogą w dalszym rozwoju modelu.
OpenAI podkreśla znaczenie odpowiedzialnego wdrożenia technologii i współpracy z ekspertami ds. bezpieczeństwa, politykami, edukatorami oraz artystami, aby zrozumieć ich obawy i zidentyfikować pozytywne zastosowania nowej technologii. Firma ma również na celu rozwój narzędzi do wykrywania wprowadzających w błąd treści i planuje włączyć metadane C2PA w przyszłości, jeśli model zostanie wdrożony w produkcie OpenAI.
W związku z tym, chociaż Sora prezentuje obiecujące możliwości w generowaniu wideo z tekstu, OpenAI nie podaje dokładnego harmonogramu, kiedy model stanie się dostępny dla ogółu użytkowników. Decyzja ta będzie zależała od wyników testów bezpieczeństwa, informacji zwrotnych od wczesnych użytkowników oraz postępów w rozwoju narzędzi do zapewnienia etycznego i bezpiecznego użytkowania.