Google właśnie zaprezentowało aktualizację swojego modelu Veo 3.1. To potężne narzędzie, zintegrowane z platformą Flow, pozwalające na generowanie video jeszcze lepszej jakości. Nowy generator video nie tylko lepiej rozumie polecenia, ale także dodaje do scen dźwięk.
Co nowego w Veo 3.1? Dźwięk, realizm i większa kontrola
Najnowsza aktualizacja modelu Veo to nie tylko kosmetyka. Jak czytamy w oficjalnym komunikacie Google DeepMind, zmiany są fundamentalne. Przede wszystkim, Veo 3.1 flash wprowadza generowanie dźwięku, co pozwala tworzyć kompletne audiowizualnie sceny. Model znacznie lepiej trzyma się zadanego promptu, a generowane materiały cechują się większym realizmem i wierniejszym odwzorowaniem tekstur. To tak, jakby przesiąść się ze standardowej kamery na profesjonalny sprzęt filmowy różnica w jakości jest odczuwalna natychmiast.
Flow – filmowe studio w przeglądarce teraz z Veo 3.1
Dzięki Veo 3.1, Flow zyskuje nowe, potężne możliwości edycyjne. Funkcja „Ingredients to Video” pozwala teraz tworzyć sceny z dźwiękiem, bazując na kilku obrazach referencyjnych, które określają styl, postacie i obiekty. Z kolei „Frames to Video” generuje płynne przejścia między dwoma kadrami, co jest idealne do tworzenia artystycznych transformacji. Chcesz wydłużyć ujęcie? Nic prostszego – funkcja „Extend” kontynuuje akcję, generując kolejne sekundy materiału. Prawdziwą rewolucją są jednak narzędzia do edycji w czasie rzeczywistym: „Insert” pozwala dodać do gotowej sceny dowolny obiekt, a Flow inteligentnie dopasuje oświetlenie i cienie. Wkrótce pojawi się też opcja „Remove”, która usunie niechciane elementy, rekonstruując tło tak, jakby nigdy ich tam nie było.
Krajobraz generatorów wideo – Veo 3.1 kontra konkurenci
Rynek AI do tworzenia wideo staje się coraz bardziej zatłoczony, a Veo 3.1 to bezpośrednia odpowiedź Google na ruchy konkurencji. Najgłośniejszym rywalem jest oczywiście konkurencyjny model Sora 2 od OpenAI, który kilka tygodni temu zaszokował świat fotorealistycznymi i spójnymi narracyjnie klipami. Google, integrując Veo z narzędziem edycyjnym Flow, stawia na większą kontrolę i interaktywność, dając użytkownikom nie tylko generator, ale całe środowisko postprodukcyjne. Porównując dostępne na rynku najlepsze generatory wideo, widać wyraźnie, że walka toczy się o jakość, długość generowanych klipów oraz precyzję w interpretacji poleceń.
Jak działa technologia zamiany tekstu na wideo?
Za tą niezwykłą technologią stoją zaawansowane modele sztucznej inteligencji. Podstawą jest przetwarzanie języka naturalnego (NLP), które pozwala maszynie zrozumieć tekstowe polecenie – jego sens, kontekst i zawarte w nim obiekty. Następnie, dzięki zastosowaniu skomplikowanych architektur sieci neuronowych, takich jak modele dyfuzyjne i architektury Transformer, system przekształca to zrozumienie w sekwencję obrazów, czyli wideo. Proces ten polega na stopniowym „odszumianiu” losowego obrazu, aż przybierze on kształt zgodny z opisem. To złożony, wieloetapowy proces, który jeszcze niedawno wydawał się domeną science fiction, a dziś staje się dostępny dla coraz szerszego grona twórców.


