Artykuły Graficzne Zaawansowane

Seedance 1.0 niszczy Veo 3 – model generowania wideo od ByteDance Seed

Seedance 1.0

Seedance 1.0 to zaawansowany model generowania wideo, stworzony przez „jednorożca” ByteDance, zdolny do tworzenia klipów Full HD (1080p) nawet na podstawie samego tekstu lub kombinacji tekstu i obrazu. Model Seedance 1.0 osiągnął najwyższą pozycję na niezależnej platformie Artificial Analysis Video Arena – zarówno w zadaniach text-to-video, jak i image-to-video, zajmując 1. miejsce w obu rankingach.

Architekturę zbudowano z myślą o stabilności ruchu i narracji. Model natywnie obsługuje wieloklatkowe ujęcia (multi-shot) – potrafi generować dłuższe sekwencje z wieloma ujęciami kamery, zachowując spójnych bohaterów i scenerię między ujęciami. W praktyce oznacza to, że Seedance 1.0 potrafi tworzyć krótkie filmy z płynnymi przejściami, w których ta sama postać czy styl wizualny pozostają konsekwentne w kolejnych ujęciach. Model wyróżnia się też precyzyjnym przestrzeganiem wskazówek – dokładnie realizuje nawet złożone polecenia dotyczące interakcji między wieloma obiektami, skomplikowanych ruchów czy specyficznej estetyki.

Seedance 1.0 dostępny na Deevid.ai

Z modelu Seedance 1.0 od ByteDance można już korzystać komercyjnie — również bezpośrednio z poziomu przeglądarki. Umożliwia to platforma Deevid.ai, która oferuje prosty i szybki interfejs do generowania wideo na podstawie opisu tekstowego lub obrazu.

Na Deevid.ai możesz:

  • tworzyć filmy w rozdzielczości 1080p z wysoką spójnością ruchu,
  • korzystać z funkcji multi-shot (wiele ujęć w jednym klipie),
  • testować różne style i scenariusze bez znajomości technicznych detali,
  • a wszystko to z wykorzystaniem technologii Seedance 1.0 Pro, czyli zoptymalizowanej wersji modelu ByteDance.

W implementacji zastosowano szereg innowacji technicznych ByteDance. Rdzeniem jest połączenie wariacyjnego autoenkodera z modelami dyfuzyjnymi opartymi na transformatorze. Autoenkoder (Time-Causal VAE) kompresuje kolejne klatki wideo do latentnej reprezentacji, uwzględniając zależności czasowe, co zapewnia spójność ruchu pomiędzy klatkami. Następnie główny model generatywny – Decoupled Spatio-Temporal Diffusion Transformer – przetwarza te zakodowane ramki wraz z zakodowaną treścią polecenia tekstowego. Transformator został zdekomponowany na warstwy przestrzenne i czasowe: warstwy przestrzenne wykonują atencję wewnątrz każdej klatki, a warstwy czasowe – między klatkami. Taka architektura umożliwia efektywne modelowanie zarówno detali pojedynczej klatki, jak i płynności ruchu między klatkami jednocześnie.

Dodatkowo w warstwach przestrzennych zaimplementowano osobne bloki dla cech wizualnych i tekstowych oraz mechanizm pozycjonowania Multi-Modal RoPE, dzięki czemu tekst (opis) może być wpleciony w sekwencję wizualnych tokenów – pozwala to łatwo trenować model jednocześnie do zadań text-to-video oraz image-to-video. Końcowym etapem generacji jest dyfuzyjny moduł refiner (ulepszający rozdzielczość): model najpierw tworzy wideo w rozdzielczości bazowej (480p), a następnie oddzielny model dyfuzyjny podnosi jakość do 720p lub 1080p, dodając detale i tekstury do wstępnego wyniku.

Żaden inny model nawet się nie zbliża do poziomu Seedance 1.0

ByteDance położyło też nacisk na efektywność i szybkość działania. Seedance 1.0 został poddany agresywnej wielostopniowej destylacji (kompresji wiedzy modelu) oraz optymalizacjom systemowym, co przyspieszyło generowanie wideo nawet 10-krotnie. Według danych ByteDance, wygenerowanie 5-sekundowego klipu 1080p zajmuje modelowi tylko ok. 41 sekund (na układzie GPU NVIDIA L20), co jest znacznie szybciej niż u konkurencyjnych systemów o podobnej jakości. Co istotne, mimo przyspieszenia zachowano wysoką jakość – model tworzy płynne ruchy postaci, stabilną geometrię scen (brak artefaktów) oraz bogate, ostre szczegóły obrazu. Wewnętrzne testy wykazały, że Seedance 1.0 świetnie radzi sobie zarówno ze scenami realistycznymi, jak i stylizowanymi (cyberpunk, animacja, tekstury materiałów itp.), dokładnie odwzorowując zadany styl wizualny w klipie.

A female traveler traverses a desert alone. The camera first shows a distant view of her slightly unsteady footsteps and flowing clothes, then switches to a medium side shot of her scarf blowing in the wind.
A European bride stands alone in front of a vanity mirror minutes before her wedding. The shot begins with a close-up of her smiling reflection in the mirror as she adjusts her hairpiece, then pans to a table scattered with cosmetics and perfume bottles. As the groom opens the door, his figure gradually comes into focus from a blur.
[I2V] A girl plays the piano with multiple camera shots switching, presenting a cinematic texture.

Proces trenowania: dane, metodologia i skala

Dane treningowe: Sukces modelu wynika m.in. z ogromnej i zróżnicowanej bazy danych wideo użytej do trenowania. ByteDance wykorzystało masową kolekcję klipów wideo pozyskanych z rozmaitych źródeł publicznych i licencjonowanych. Surowe nagrania zostały poddane wieloetapowej filtracji i obróbce, by stworzyć czysty i reprezentatywny zbiór treningowy. Automatyczne algorytmy oraz przegląd manualny usuwały m.in. logo stacji, napisy, znaki wodne, a także treści nieodpowiednie (przemoc, pornografia, itp.). Długie filmy pocięto na krótsze klipy (typowo 3–12 sekund), często zawierające jedną spójną scenę lub ujęcie, co ułatwiało modelowi naukę we właściwej skali czasowej. Klipy o zbyt słabej jakości technicznej (rozmazane, niestabilne, nudne statyczne ujęcia) zostały odrzucone przy użyciu dedykowanych klasyfikatorów jakości. Dodatkowo, by uniknąć powielania tych samych treści, przeprowadzono deduplikację semantyczną – podobne klipy (według porównania cech wizualnych wyekstrahowanych przez model wideo) zgrupowano i z każdego grona pozostawiono tylko jeden najlepiej oceniony jakościowo.

ByteDance zadbało także o zrównoważenie danych pod względem kategorii: analizowano rozkład klipów względem typów scen, obiektów (ludzie, krajobrazy, itd.), długości, stylu, dynamiki ruchu itp., i dopasowywano proporcje (nadmiarowe typy klipów odrzucano lub ograniczano, a rzadkie typy uzupełniano dodatkowymi próbkami). Co ważne, do trenowania Seedance użyto zarówno danych wideo, jak i bardzo dużego zbioru obrazów statycznych (przetworzonych podobnie jak w projekcie Seedream – modelu do generacji obrazów). Model uczył się więc jednocześnie generowania pojedynczych obrazów (przydatne dla jakości klatek) oraz sekwencji wideo (przydatne dla płynności).

Aby model dobrze rozumiał polecenia i poprawnie interpretował sceny, do każdego klipu przygotowano dokładny opis (caption). ByteDance zastosowało styl tzw. gęstego opisu – każdy klip opisywano zarówno pod kątem elementów dynamicznych (jakie akcje wykonują postaci, jak porusza się kamera) jak i statycznych (jak wyglądają główne obiekty/sceneria, jaki jest styl wizualny). W tym celu zdefiniowano kategorie istotnych cech dynamicznych i statycznych, a następnie przeszkolono specjalny model opisujący wideo (Tarsier2). Model ten (z nieruszoną częścią wizualną i dostrojonym modułem językowym) trenowano na tysiącach przykładów z ręcznie stworzonymi opisami klipów, zarówno po chińsku, jak i angielsku, by uzyskać dwujęzyczne opisy wysokiej jakości. Dzięki temu powstał zbiór par klip + szczegółowy opis, który posłużył do nadzorowanego trenowania głównego modelu generatywnego.

Ponadto ByteDance opracowało moduł Prompt Engineering – osobny model językowy (bazujący na LLM Qwen-14B) przeszkolony do przekształcania krótkich poleceń użytkownika w bogate, szczegółowe opisy analogiczne do tych treningowych. Najpierw model ten uczono na zestawie par (polecenie ⇒ pełny opis) przygotowanych ręcznie, a następnie dopracowano go metodą wzmacniania z preferencjami (Direct Preference Optimization) – tak aby unikał halucynacji i wiernie zachowywał znaczenie polecenia. W efekcie, podczas korzystania z Seedance 1.0, zapytanie użytkownika najpierw jest automatycznie rozwijane do pełnego opisu sceny przez moduł PE, a dopiero potem przekazane do modelu generującego – dzięki czemu generowane wideo dokładnie odpowiada intencjom użytkownika i jest zgodne z formatem danych, na których model był trenowany.

Szkolenie modelu odbyło się w kilku etapach, aby maksymalnie wykorzystać dostępne dane i dopracować różne zdolności modelu. W fazie pre-treningu model uczył się ogólnych umiejętności: początkowo trenowano go na dużym zbiorze obrazów (task text-to-image na niskiej rozdzielczości), co dało solidne podstawy rozumienia wizji i tekstu. Następnie stopniowo wprowadzano dane wideo – najpierw krótkie klipy 3–12s o niższej rozdzielczości i małej ilości klatek na sekundę, łącząc trening obrazów i wideo w jedno (tzw. image-video joint training). W kolejnych stadiach pre-treningu zwiększano wymagania: podniesiono rozdzielczość trenowanych klipów do docelowej (np. 480p), a potem zwiększono liczbę klatek na sekundę (FPS) w danych treningowych, aby poprawić płynność ruchu. Przez cały czas mieszano różne zadania – generację obrazu, wideo z tekstu i wideo z obrazu – aby model opanował je równocześnie; np. przez znaczną część treningu ~20% próbek stanowiło zadanie image-to-video, co aktywowało zdolność modelu do rozwijania zadanej klatki w ruchomy klip.

Po zasadniczym pre-treningu zorientowanym głównie na text-to-video, zorganizowano fazę Continue Training (CT) ukierunkowaną na poprawę zadania image-to-video. Zwiększono znacząco udział próbek i2v (image-to-video) w treningu (więcej przypadków, gdzie pierwsza klatka jest podana), aby model lepiej wykorzystał swój potencjał w tym zakresie. W tej fazie użyto nieco mniejszej liczby GPU (co sugeruje mniejszą skalę niż pre-training) i mniejszego learning rate, ale za to szczególnie starannie dobrano dane: z ogromnej bazy wyselekcjonowano podzbiór klipów o wysokiej estetyce i bogatej dynamice ruchu, identyfikując je algorytmicznie (scoringiem estetyki i analizą przepływu optycznego).

Dla próbek i2v przygotowano też dwa rodzaje opisów: pełny opis (jak zwykle) oraz skrócony opis zawierający tylko elementy ruchu (bez opisu wyglądu statycznej pierwszej klatki) – to pomogło modelowi nauczyć się, że w trybie i2v ma trzymać się zadanej sceny i głównie dodać do niej ruch. Po tej fazie model już bardzo dobrze radził sobie z płynnością i naturalnością ruchu oraz z zachowaniem spójności wizualnej z zadanym obrazem.

Kolejny krok to nadzorowane dostrajanie (Supervised Fine-Tuning). Tutaj skupiono się na dostosowaniu wyników modelu do ludzkich preferencji pod względem jakości wizualnej i koherencji ruchu. ByteDance zebrało mniejszy, ale niezwykle staranny zbiór wysoko jakościowych próbek wideo z ręcznie zweryfikowanymi opisami. Dane te pogrupowano w setki kategorii (według stylu wizualnego, typu ruchu, itp.), aby zapewnić równomierne pokrycie różnych przypadków. Następnie… zamiast trenować jeden model na całości, zastosowano ciekawą technikę łączenia modeli: osobne instancje modelu trenowano na różnych wycinkach tego zbioru (każda instancja specjalizowała się np. w konkretnym stylu czy scenariuszu) przy niewielkim learning rate i użyciu mniejszej liczby GPU. Każdy z tych modeli trenowano krótko (early stopping zanim zacznie przeuczać się i tracić kontrolę tekstową). Na koniec połączono wagi tych modeli w jeden wspólny model – dzięki temu zintegrowano ich zalety, co wyraźnie poprawiło zarówno wierność wizualną (np. ostrość, detale), jak i jakość ruchu w ostatecznym modelu.

Ostatnim etapem było dostosowanie modelu metodą RLHF (uczenie ze wzmocnieniem z feedbackiem od ludzi). Zastosowano tu rozbudowany schemat: najpierw zebrano duży zbiór poleceń użytkowników (zarówno z danych treningowych, jak i od prawdziwych testerów online) i przefiltrowano je (unikając duplikatów i niejasnych). Do wybranych poleceń wygenerowano różne klipy wideo – m.in. korzystając z różnych wersji modelu (np. przed i po SFT) – a następnie ewaluatorzy oceniali, które wykonanie jest lepsze pod różnymi względami. Dzięki temu powstały dane preferencji: dla danego polecenia wskazano, który z dwóch klipów jest lepszy np. w wymiarze jakości ruchu lub zgodności z opisem.

Co ważne, ocenę prowadzono wielowymiarowo: jednocześnie zwracano uwagę, by wybrany „lepszy” klip nie był gorszy pod innymi względami od „przegranego”. ByteDance zbudowało trzy oddzielne modele nagrody (reward models), każdy oceniający inny aspekt: (1) Model fundamentalny – ocenia spójność obrazu z tekstem i stabilność strukturalną scen (wykorzystano tu model typu Vision-Language, czyli patrzący jednocześnie na obraz i opis); (2) Model ruchu – ocenia dynamikę i płynność ruchów oraz czy nie ma artefaktów (analizuje cechy ruchu między klatkami) (3) Model estetyki – ocenia piękno klipu na podstawie kluczowych klatek (zaadaptowano tu podejście z modelu Seedream do oceny obrazów, ale karmiąc go klatkami z wideo).

Te trzy kryteria zapewniają kompleksową ocenę wygenerowanego filmu. Właściwe strojenie RLHF polegało na tym, że model generujący próbuje tworzyć takie wideo, by zoptymalizować sumaryczną ocenę ze wszystkich trzech modeli nagrody. Zamiast stosować standardowe algorytmy (PPO, DPO itp.), zespół ByteDance zaimplementował bezpośrednią maksymalizację nagrody – okazało się to bardziej efektywne i stabilne dla tego przypadku. Praktycznie symulowano proces inferencji w trakcie treningu (model generował próby klipów), a kiedy model nagrody oceniał je wystarczająco dobrze, nagradzano model generujący, by uczył się w tym kierunku. Zastosowano też iteracyjne uczenie naprzemienne: kilkukrotnie trenowano model generujący z aktualnymi modelami nagrody, następnie ulepszano modele nagrody na nowych danych i znów trenowano generator – co stopniowo podnosiło sufit możliwości i dało bardzo dobre rezultaty bez utraty stabilności. Analogiczne podejście RLHF zastosowano również do modelu upscalera (refinera), aby dopracować jakość końcową wysokiej rozdzielczości.

Podsumowując, Seedance 1.0 trenowano na ogromnym, zróżnicowanym zbiorze danych (wideo + obrazy), przechodząc przez fazy pretreningu na niskich parametrach, stopniowej eskalacji rozdzielczości i płynności, specjalnego dopalenia zdolności image-to-video, następnie fine-tuningu na starannie wyselekcjonowanych danych, a na koniec dopracowania poprzez sprzężenie zwrotne od ludzi. Taka metodologia zaowocowała modelem o wyjątkowej wszechstronności: potrafi tworzyć różnorodne style i sceny, a jednocześnie spełniać dokładnie założenia scenariusza, zachowując realizm ruchu i wysoką jakość klatek.

Seedance 1.0 na szczycie rankingu AIVA – dlaczego tak mało o nim w mediach?

Model Seedance 1.0 osiągnął najwyższą pozycję na niezależnej platformie Artificial Analysis Video Arena – zarówno w zadaniach text-to-video, jak i image-to-video, zajmując 1. miejsce w obu rankingach. Platforma Artificial Analysis ocenia jakość generowanych filmów i nadaje modelom ranking ELO (podobny do rankingów szachowych). Wynik Seedance to około 1160 ELO, co zdecydowanie dystansuje konkurencję. Dla porównania: model Veo 3 (Google) plasuje się na drugim miejscu, ale aż o ~100 ELO niżej, a trzeci w rankingu jest słabszy o kolejne 50 ELO. Różnica ponad 200 punktów ELO dzieli Seedance od wcześniejszych generacji (Veo 2) – jak zauważono na forum, „żaden inny model nawet się nie zbliża” do poziomu Seedance. Wyniki te są statystycznie istotne (model ByteDance wygrywa zdecydowanie poza marginesem błędu). Krótko mówiąc, Seedance 1.0 obecnie wyznacza nowy standard jakości w generowaniu wideo.

Mimo tak przełomowych osiągów, model ten nie zyskał jeszcze dużego rozgłosu w mediach głównego nurtu. Jest kilka powodów tej sytuacji. Po pierwsze, ByteDance (firma-matka TikToka) nie promowała szeroko Seedance na rynkach zachodnich – informacje pojawiały się głównie w branżowych mediach technologicznych i na forach AI. W momencie debiutu (czerwiec 2025) większą uwagę mediów przyciągały modele zachodnich firm (np. OpenAI Sora, Google Veo), podczas gdy o chińskiej konkurencji wspominano mniej. Przykładowo, OpenAI ogłosiło Sora już na początku 2024, co wzbudziło globalną sensację, a ByteDance rozwijało swój model bardziej po cichu, informując o nim przede wszystkim na konferencjach własnych i w chińskich serwisach informacyjnych.

Ponadto Seedance 1.0 do niedawna nie był dostępny publicznie poza wybranymi aplikacjami ByteDance – brak otwartego interfejsu lub zachodniej wersji beta oznacza mniejsze zaangażowanie społeczności międzynarodowej w testowanie i promowanie wyników. Sam ByteDance skupił się na wdrożeniach wewnętrznych (o czym dalej) zamiast głośnej kampanii PR. W efekcie, o ile specjaliści śledzący Artificial Analysis lub reddit dowiedzieli się o dominacji Seedance, o tyle szeroka publiczność nie zetknęła się z tym w mainstreamowych mediach.

Warto też zauważyć, że ranking choć ceniony w środowisku sztucznej inteligencji, jest inicjatywą stosunkowo nową i niszową. Media częściej cytują spektakularne demo (np. pokaz wygenerowanego filmu) czy komunikat prasowy dużej firmy niż tabelę wyników na specjalistycznym portalu. ByteDance nie publikuje agresywnie przykładów z Seedance na YouTube czy Twitterze (X), więc „efekt wow” nie przebił się wiralowo. Niemniej w społeczności AI model zebrał ogromne uznanie: komentatorzy podkreślają, że wyprzedził konkurencję z dużym zapasem oraz że generuje filmy szybciej i taniej niż rywale. Użytkownicy testujący klipy stwierdzili wręcz, że jakość obrazu i zgodność z poleceniami jest co najmniej dorównująca, jeśli nie przewyższająca, rozwiązania Google.

Porównanie z innymi modelami: Sora, Veo 3, Kling

W czołówce wyścigu AI text-to-video obok ByteDance Seedance konkurują m.in. OpenAI Sora, Google Veo 3 oraz model Kling (pisany też Kêling) chińskiej firmy Kuaishou. Seedance 1.0 wyprzedza je wszystkie w niezależnych testach jakości, ale warto omówić kluczowe różnice technologiczne i funkcjonalne między tymi systemami.

OpenAI – Sora: Sora to model generowania wideo opracowany przez OpenAI, twórców ChatGPT. Jego premiera (zapowiedź) miała miejsce w lutym 2024 jednak publicznie udostępniony został dopiero pod koniec 2024. Sora potrafi generować filmy nawet do 20 sekund w 1080p i radzi sobie z różnorodnymi scenami. OpenAI wyposażyło go w możliwość rozszerzania istniejących filmów oraz generowania zróżnicowanych formatów obrazu i wideo. W praktycznych testach Sora osiągnął wysoki poziom – jest to pierwszy model tego typu z Zachodu, który zyskał rozgłos. Niemniej według rankingów, Seedance 1.0 prześciga Sorę pod względem spójności i zgodności z poleceniem. ByteDance chwali się, że ich model dokładniej trzyma się detali opisu (np. konkretnych ruchów kamery czy cech stylistycznych) niż inne systemy.

Sora jest potężny, ale wydaje się, że Seedance lepiej zachowuje ciągłość narracji – np. prowadzi jedną postać przez wiele ujęć z zachowaniem jej wyglądu, czego Sora w pierwszej wersji nie zawsze dopilnowywał. Również pod względem płynności złożonych ruchów (np. dynamiczne ujęcia akcji) model ByteDance uzyskuje wyższe oceny jakości ruchu. Trzeba jednak zaznaczyć, że Sora był udostępniany w ograniczonej formie (preview) i nie jest otwartym modelem – stąd porównania opierają się głównie na raportach i nieoficjalnych testach. W mediach zachodnich Sora zdecydowanie był bardziej obecny – ByteDance dołącza niejako do rywalizacji z Sorą, ale od strony wyników już ją przegonił.

Google – Veo 3: Veo to rodzina modeli text-to-video rozwijana przez Google (prawdopodobnie wywodząca się z wcześniejszych prac nad Imagen Video i Phenaki). Veo 3 to najnowsza generacja, udostępniona komercyjnie poprzez chmurę Google (np. jako API czy w ramach usługi Google AI)**. Model ten wyróżnia się tym, że generuje także ścieżkę dźwiękową – Veo 3 jest multimodalny audio-wizualnie, co czyni go atrakcyjnym np. do tworzenia kompletnych klipów video z muzyką czy narracją. Pod względem jakości obrazu i ruchu Veo 3 do niedawna przodował – jednak Seedance 1.0 zdołał go wyprzedzić na polu wideo bez dźwięku. W rankingach model ByteDance ma znacząco wyższy rating w kategorii silent video, choć niektórzy zaznaczają, że audio daje Veo przewagę w odbiorze całościowym klipu.

Główną przewagą Seedance jest wydajność i koszt generowania: oszacowano, że wyprodukowanie 5-sekundowego filmu w 1080p kosztuje przez API ByteDance ok. $0.48 (czyli ~3,7 RMB), podczas gdy analogiczna długość w Veo 3 to kilka dolarów (według dyskusji: ~$2.5–6 w zależności od usługi). Różnica wynika z tego, że Veo początkowo wymagał dużych zasobów obliczeniowych – Google wprawdzie uruchomiło tryb Veo 3 Fast, by zbliżyć się wydajnością do Seedance, niemniej to ByteDance osiągnął większą efektywność dzięki wspomnianej destylacji modelu (mniej parametrów lub lepsze wykorzystanie GPU). W praktyce użytkownikom zależy na kosztach: Veo to usługa płatna (kilka dolarów za klip lub abonament), a ByteDance oferuje tańszą alternatywę, co może zadecydować o popularyzacji Seedance u twórców contentu. Jakościowo obydwa modele są w ścisłej czołówce – testerzy określili Seedance jako porównywalny, a nawet przewyższający Veo 3 pod względem ostrości obrazu i wierności poleceniom.

Google ma jednak przewagę globalnej infrastruktury i integracji (np. potencjalne połączenie z YouTube), podczas gdy ByteDance dopiero buduje ekosystem dla Seedance (np. aplikacja Jimeng AI w Chinach, o czym dalej). Podsumowując, Veo 3 i Seedance 1.0 „rzucają sobie rękawice” – model ByteDance oferuje lepszą jakość ruchu i niższy koszt, zaś Google jako pierwszy dodał dźwięk i ma przewagi dystrybucyjne. Pojedynek trwa, a według zapowiedzi Veo 4 może się ukazać pod koniec roku z jeszcze dłuższymi klipami i 60 FPS, więc rywalizacja jest dynamiczna.

Kuaishou – Kling: Kling to linia modeli generatywnych rozwijanych przez Kuaishou, chińskiego giganta aplikacji wideo (właściciela platformy Kwai). Kling 2.0/2.1 to odpowiednik Seedance po stronie Kuaishou – służy do generowania krótkich filmów na podstawie tekstu. Model ten zadebiutował publicznie w połowie 2024 i był udostępniony globalnie w wersji beta (wymagającej tylko rejestracji e-mail), co przyniosło mu pewien rozgłos. W rankingach Kling 2.0 zajmował trzecie miejsce za Google, jednak ByteDance podaje, że Seedance 1.0 przewyższył także Kling 2.x – w zestawieniach AIVA Elo dla Kling 2.1 szacowano na podstawie poprzedniej wersji, ale i tak był on dużo niżej niż Seedance. Technicznie o Kling wiadomo mniej (firma nie opublikowała tak obszernego raportu jak ByteDance), ale prawdopodobnie również korzysta z architektury dyfuzyjnej i został wytrenowany na pokaźnych zbiorach wideo Kuaishou.

Wydaje się jednak, że ByteDance wygrywa rywalizację “TikTok vs. Kwai” na polu AI wideo – przewaga Seedance w jakości (szczególnie w złożonych scenach i dłuższych narracjach) jest wyraźna. Kling może mieć natomiast przewagi w integracji z własnym produktem: Kuaishou już w lipcu 2024 umożliwiło użytkownikom globalnym wypróbowanie generowania filmików z Kling, więc zgromadziło wcześniej feedback użytkowników. Ogólnie jednak, jak stwierdził serwis The Decoder, Seedance 1.0 stał się nowym punktem odniesienia, przebijając zarówno Veo 3 Google’a, Kling Kuaishou, jak i Sorę OpenAI w kluczowych parametrach jakości obrazu i ruchu.

ByteDance Seed – nowy dział badań AI w ByteDance

ByteDance Seed to nazwa jednostki badawczo-rozwojowej ByteDance, w ramach której powstał model Seedance 1.0. Dział Seed został utworzony na początku 2023 roku, jako odpowiedź firmy na boom związany z dużymi modelami AI (po sukcesie ChatGPT). Zamiast rozproszonego zespołu, ByteDance postanowiło skonsolidować prace nad sztuczną inteligencją ogólnego przeznaczenia w nowej strukturze – Seed ma zajmować się badaniami nad modelami podstawowymi (ang. foundation models), od dużych modeli językowych po generację obrazów i wideo.

Seed niejako zastąpił wcześniejsze AI Lab ByteDance. AI Lab działało od 2016 r., liczyło w szczytowym okresie ~150 badaczy i odegrało ważną rolę w algorytmach rekomendacji TikToka oraz efektach AR, ale z czasem zostało przekształcone w bardziej usługowy dział wsparcia biznesu. W roku 2023 ByteDance podjęło decyzję, aby włączyć AI Lab w struktury Seed – stopniowo przeniesiono ludzi i projekty do nowego zespołu. Operacja ta zakończyła się w 2025, co stanowiło sporą restrukturyzację w firmie. Efektywnie ByteDance Seed przejęło rolę głównego ośrodka R&D AI w firmie, skupiając najlepszych ekspertów i nowe rekrutacje.

Na czele ByteDance Seed stoi Zhu Wenjia – doświadczona menedżerka technologii (wcześniej kierowała m.in. działem inżynierii w ByteDance). W 2023 pełniła funkcję head of Seed, jednak w 2025 ByteDance pozyskało wybitnego naukowca Wu Yonghui (byłego Google Fellow z 17-letnim stażem w Google AI) i powierzyło mu kierownictwo nad badaniami fundamentalnymi w Seed. Wu Yonghui raportuje bezpośrednio do CEO ByteDance (Liang Rubo), co pokazuje, jak strategicznie ważny jest dział Seed dla firmy. Zhu Wenjia nadal zajmuje wysoką pozycję, skupiając się na zastosowaniach i wdrożeniach technologii AI w produktach ByteDance, podczas gdy Wu odpowiada za badania podstawowe i rozwój modeli. Pod Wu podlegają teraz m.in. Li Hang (szef działu badań, wcześniej dyrektor AI Lab) oraz Xiang Liang (lider ds. uczenia maszynowego zastosowanego, twórca dużego modelu językowego Doubao). Można więc powiedzieć, że ByteDance Seed ma dwie ścieżkibadawczą (kierowaną przez Wu) i produktową (kierowaną przez Zhu) – które ściśle współpracują.

Sam zespół Seed dynamicznie się rozrasta. ByteDance aktywnie rekrutuje do niego top talenty (poza Wu również wielu młodszych naukowców, także z startupów AI – np. dołączył Huang Wenhao, współtwórca startupu 01.ai Lee Kai-fu, teraz również raportujący do Wu). Współpracuje też z uczelniami: na przykład utworzono wspólne laboratoria z Uniwersytetem Pekińskim i Tsinghua, m.in. dla projektów LLM (model Doubao) i systemów AI. Dział Seed jest zatem stosunkowo nową jednostką (ma ~2 lata), ale już stanowi trzon wysiłków badawczych ByteDance w AI. Łączy on w sobie zasoby dawnego AI Lab (doświadczonych inżynierów i badaczy) z nowymi zespołami skupionymi na dużych modelach.

Liczebność zespołu Seed nie jest publicznie podana, lecz można szacować, że to kilkaset osób – sam AI Lab to ~150 pracowników, do tego nowe rekrutacje oraz oddziały (ByteDance ma laby AI m.in. w Pekinie, Szanghaju, a także w USA). Na liście autorów raportu Seedance 1.0 widnieje kilkudziesięciu współtwórców, co sugeruje skalę projektu. Ponadto ByteDance integrowało z Seed inne swoje inicjatywy AI (np. projekt Flow skupiony na modelach językowych), więc w ramach tego działu pracują eksperci różnych dziedzin (NLP, CV, generative AI).

Podsumowując, ByteDance Seed to stosunkowo nowy dział badawczy (powstały w 2023), który przejął rolę wcześniejszego AI Lab. Zatrudnia dziesiątki wybitnych specjalistów (prawdopodobnie łącznie kilkaset osób), zorganizowanych pod kierownictwem doświadczonych liderów (Zhu Wenjia – rozwój produktów, Wu Yonghui – badania). To w ramach Seed powstają najważniejsze innowacje AI ByteDance – w tym bohater niniejszego raportu, model generowania wideo Seedance 1.0.

Koszt trenowania Seedance 1.0

Dokładne koszty wytrenowania modelu Seedance 1.0 nie zostały podane do publicznej wiadomości – ByteDance nie ujawniło wprost ani wydatków finansowych, ani skali wykorzystanych zasobów. Można jednak wysnuć pewne wnioski z dostępnych informacji technicznych. Wiadomo, że trening odbywał się na tysiącach procesorów GPU jednocześnie, z zastosowaniem zaawansowanych metod rozproszonego trenowania w chmurze ByteDance. Inżynierowie wspominali o skalowaniu modelu do tysięcy GPU, co sugeruje, że projekt wymagał olbrzymiej mocy obliczeniowej oraz dedykowanej infrastruktury (ByteDance wykorzystało własny cloud Volcengine oraz klaster ByteCloud). Trening rozłożono na wiele etapów (pre-training, fine-tuning, RLHF), więc łączny czas obliczeń musiał być bardzo duży.

Przybliżając, modele porównywalnej skali (np. modele tekstowe jak GPT-4 czy obrazy jak Imagen) pochłaniały miliony dolarów na trenowanie – tu sytuacja jest podobna. ByteDance z pewnością zainwestowało w ten projekt znaczne środki finansowe i sprzętowe. Sama destylacja 10× wskazuje, że model początkowo trenowano w większej wersji, a dopiero potem zoptymalizowano – co oznacza dodatkowy nakład pracy i mocy na etapie destylacji. Działania typu RLHF wymagają generowania tysięcy próbek i oceniania ich przez modele nagrody i ludzi, co także jest kosztowne.

Z drugiej strony, ByteDance informuje, że finalny model jest bardzo wydajny: generuje 5 sekund wideo w ~41 s na pojedynczej karcie L20. Osiągnięcie takiej sprawności wynika z poniesienia dużego kosztu offline (destylacja, optymalizacje), który „spłaca się” przy użytkowaniu. Trening wideo jest droższy niż obrazów (bo wiele klatek, większy wymiar czasowy). Można bezpiecznie założyć, że ByteDance wydało co najmniej kilka milionów USD na wytrenowanie Seedance 1.0, uwzględniając koszty energii, amortyzacji sprzętu i pracy zespołu. Dokładna kwota nie padła publicznie, ale kontekstowo model Doubao 1.5 (LLM ByteDance) trenowano rzekomo kosztem ok. $5 mln, więc model wideo mógł być porównywalny lub droższy.

Ważniejszą dla użytkowników informacją jest koszt korzystania z wytrenowanego modelu – ten zaś ByteDance znacząco obniżyło dzięki optymalizacjom. Jak już wspomniano, wygenerowanie klipu kosztuje rzędu kilkudziesięciu centów (poniżej 4 zł), co jest bardzo konkurencyjne. Firma podkreśla, że koszt użycia Seedance 1.0 Pro jest tylko ułamkiem kosztu konkurencyjnych usług (np. około 1/3 kosztu poprzednich modeli ByteDance czy modeli innych firm). To sugeruje, że ByteDance absorbuje część wydatków (traktując to jako inwestycję strategiczną), aby spopularyzować swój produkt.

Główni naukowcy, inżynierowie i liderzy zespołu

Projekt Seedance 1.0 jest dziełem dużego interdyscyplinarnego zespołu, w którego skład wchodzą zarówno naukowcy zajmujący się modelami AI, jak i inżynierowie oprogramowania budujący infrastrukturę dla tych modeli. Liderami projektu po stronie badawczej są m.in.: Dr Lu Jiang, Dr Jiashi Feng, Dr Zhenheng Yang oraz Dr Jianchao Yang – pełnili oni role Research Lead przy wcześniejszym projekcie generowania wideo (kodowo nazywanym Seaweed), a następnie przy Seedance. Dr Lu Jiang to uznany ekspert w dziedzinie wizji komputerowej i generowania video (wcześniej pracował w Google Brain nad podobnymi zagadnieniami).

Dr Jiashi Feng to wybitny naukowiec z doświadczeniem akademickim (m.in. prof. na Narodowym Uniwersytecie Singapuru), również ściągnięty do ByteDance Seed, by pomóc w sztucznej inteligencji wizualnej. Jianchao Yang również ma silne zaplecze badawcze (znany z prac nad przetwarzaniem obrazów i deep learningiem). Zespół research kierowany przez tych specjalistów odpowiadał za opracowanie architektury modelu, algorytmów trenowania i innowacji takich jak RLHF do wideo. Warto podkreślić, że zespół ten współpracował także z inżynierami systemowymi – np. Huixia Li, Jiashi Li, Rui Wang, Shu Liu, Yuxi Ren i inni byli liderami infrastruktury (point-of-contact) odpowiedzialnymi za wydajność trenowania na klastrach, optymalizacje pamięci i dystrybucję zadań. Takie osoby zapewniły, że model dało się trenować na tak wielką skalę i że działa on sprawnie na serwerach ByteDance.

Na liście core contributors projektu Seedance 1.0 znajduje się kilkadziesiąt nazwisk – m.in. Yu Gao, Haoyuan Guo, Tuyen Hoang, Weilin Huang, Fangyuan Kong, Jiashi Li, Xunsong Li, Shanchuan Lin, Jiawei Liu, Zhiwu Qing, Yuxi Ren, Li Sun, Fei Xiao, Ceyuan Yang, Tao Yang, Peihao Zhu, Feilong Zuo i wielu innych. Są to badacze i inżynierowie, którzy bezpośrednio przyczynili się do powstania modelu – czy to w zakresie przygotowania danych, trenowania sieci, czy tworzenia mechanizmów oceny. Wkład każdego z nich opisano w raporcie technicznym. Wśród nich można wyróżnić np. Tuyen Hoang (specjalista od przetwarzania języka i multimodalnych danych), Weilin Huang (znany z prac nad detekcją obiektów i wizją komputerową), Fangyuan Kong (odpowiedzialny za część Research Data – przygotowanie danych wideo) czy Ceyuan Yang (badacz nad architekturami generatywnymi). Ta plejada nazwisk świadczy, że ByteDance zgromadziło mocny zespół.

Nadzór nad całością sprawowała wspomniana już Zhu Wenjia (Head of Seed) oraz Wu Yonghui (Head of Research). Choć nie kodowali oni bezpośrednio, ich wsparcie i wizja były kluczowe – w wewnętrznych podziękowaniach specjalnie wyróżniono wkład Wenjia Zhu i Yonghui Wu w konsultacje i kierownictwo projektu. To oni zapewnili zespołowi zasoby i strategiczne wytyczne. Warto też wspomnieć Li Hang – doświadczonego naukowca AI (kiedyś Microsoft Research, potem szef AI Lab ByteDance), który pełnił rolę doradczą i uczestniczył w koordynacji badań (jego nazwisko także figuruje wśród autorów raportu).

Podczas oficjalnej prezentacji wyników modelu (na konferencji Volcano Engine w czerwcu 2025) głos zabierali również przedstawiciele kierownictwa ByteDance: Tan Dai (prezes Volcano Engine, biznes chmury ByteDance) oraz Hong Dingkun (wiceprezes ByteDance). Tan Dai podkreślał konkurencyjność technologii i jej przełomowość, a Hong wskazywał na przyszłe usprawnienia i niższe progi wejścia dla twórców dzięki takim AI. Choć nie byli to twórcy modelu, ich wypowiedzi sygnalizują wsparcie najwyższego kierownictwa dla zespołu Seed.

Inwestorzy i źródła finansowania projektu

Projekt Seedance 1.0 jest finansowany i rozwijany wewnętrznie przez ByteDance. Nie ma publicznych informacji o zewnętrznych inwestorach specyficznie wspierających ten projekt – jest to własna inicjatywa badawcza technologicznego giganta, realizowana z jego środków. ByteDance, jako firma prywatna (jednorożec wyceniany na kilkadziesiąt miliardów dolarów), dysponuje znacznym budżetem na R&D i to z niego pochodziły fundusze na zespół Seed oraz potrzebną infrastrukturę.

Warto zaznaczyć, że ByteDance w ostatnich latach pozyskało ogólnie wiele kapitału od inwestorów (SoftBank, Sequoia China, General Atlantic i inni udziałowcy) – pośrednio więc ci inwestorzy wspierają finansowo całą działalność ByteDance, w tym prace nad AI. Jednak nie było osobnej rundy finansowania „pod Seedance”. Firma raczej reinwestuje duże zyski z TikToka/Douyina i innych produktów w rozwój nowych technologii. Strategicznie, ByteDance postrzega generatywną AI jako klucz do przyszłości platform contentowych, stąd gotowa była wyłożyć znaczące środki, by dogonić i przegonić rywali.

Jeśli chodzi o partnerstwa – ByteDance współpracuje z chińskimi uczelniami (Peking University, Tsinghua) w ramach wspólnych labów, co może oznaczać pewne dofinansowanie rządowe czy granty naukowe, ale konkretnie projekt modelu wideo sfinansowała głównie sama firma. Chiński rząd odgórnie zachęca gigantów tech do inwestowania w AI, ale akurat ByteDance nie otrzymało (wg dostępnych danych) bezpośredniej subwencji na Seedance. Niektórzy analitycy wskazują, że Volcano Engine – dział usług chmurowych ByteDance – aktywnie promuje rozwiązania AI w swojej ofercie, zatem można uznać, iż rozwój modelu był współfinansowany z budżetu Volcano Engine (który potem będzie czerpał zyski z komercyjnego udostępniania modelu klientom). Prezentacja Seedance 1.0 miała miejsce na konferencji Volcano Engine, co sugeruje, że traktują go jako swój produkt chmurowy.

Powiązania z innymi projektami badawczymi i komercyjnymi

Przede wszystkim, Seedance jest naturalną kontynuacją wcześniejszych eksperymentów ByteDance z generowaniem wideo. W 2024 r. zespół Seed opracował wewnętrzne modele o kryptonimach Goku i Seaweed, które były prototypami AI wideo (wspominane na forach branżowych). Projekt Seaweed został nawet opisany na stronie ByteDance jako „model bazowy generowania wideo” – obsługiwał on już wtedy rozdzielczość 720p, generację w czasie rzeczywistym 24 FPS i eksperymenty z długim kontekstem (filmami ~20+ ujęć). Był to poligon doświadczalny, gdzie testowano np. Long-Context Tuning czy sterowanie kamerą po trajektorii. Seedance 1.0 bazuje na doświadczeniach z Seaweed – wiele nazwisk zespołu się pokrywa i ulepszenia (jak Multi-Modal RoPE do multi-shot) zapewne wynikły z tamtych badań. Można uznać, że Seaweed to wersja 0.x, a Seedance 1.0 to dopracowana wersja produkcyjna modelu video generacji.

Kolejnym powiązanym projektem jest Seedream, czyli model generowania obrazów (text-to-image) rozwijany przez ByteDance Seed równolegle. Metody przygotowania danych obrazowych do Seedance zostały wprost zaczerpnięte z projektu Seedream, a także niektóre komponenty (np. model oceniający estetykę obrazów wykorzystany w RLHF wideo inspirowano Seedream Aesthetic Reward). Widać więc synergię między modelami generatywnymi obrazu i wideo – zespół Seed wykorzystuje know-how z jednego przy drugim.

Najbardziej jednak widoczne są powiązania komercyjne: ByteDance nie stworzyło Seedance do szuflady, lecz od razu integruje go z produktami. Już w 2024 firma uruchomiła w Chinach aplikację Jimeng AI – mobilny program do generowania obrazów i krótkich filmów z tekstu. Jimeng działa pod skrzydłami spółki zależnej Faceu (twórców popularnej appki do filtrów wideo) i jest częścią ekosystemu ByteDance (Jianying/CapCut). W sierpniu 2024 Jimeng AI trafił do chińskiego App Store, oferując użytkownikom generowanie ~168 filmików miesięcznie w ramach subskrypcji. Można przypuszczać, że początkowo wykorzystywał on wcześniejszą wersję modelu (Seaweed), ale od 2025 jest zapewne zasilany już modelem Seedance 1.0 lub jego wariantem (Seedance 1.0 Pro).

ByteDance planuje też integrację zdolności generowania wideo do swojego chatbota Doubao – czyli chińskojęzycznego odpowiednika ChatGPT rozwijanego przez zespół Seed. Według zapowiedzi, użytkownik Doubao mógłby wydawać polecenia głosowe/tekstowe, a platforma wygeneruje dla niego krótki film (tu połączenie LLM + model wideo). Integracja ta ma służyć m.in. twórcom contentu i marketerom – ByteDance widzi zastosowania Seedance w generowaniu np. reklamówek produktów, teledysków do muzyki, dynamicznych klipów na social media. Przykładowo, już demonstrowano jak z zestawu statycznych zdjęć (np. z Unsplash) model potrafi zrobić dynamiczny klip w stylu teledysku, z płynnymi przejazdami kamery – coś, co trafi w gusta twórców na TikToku.

Również platforma Volcano Engine (chmura ByteDance) oferuje API do Seedance 1.0 Pro dla deweloperów i firm, które chcą generować wideo w swoich rozwiązaniach. Jest to zatem produkt komercyjny – bezpośrednio powiązany z ofertą Volcano Engine, podobnie jak Doubao (LLM) czy inne modele. W oficjalnym komunikacie nazwano go „rozwiązaniem dla branż kreatywnych, e-commerce, gier i filmów” – wskazuje się, że może posłużyć do szybkiego tworzenia animacji do gier, wizualizacji scen filmowych czy unikalnych materiałów marketingowych.

Co więcej, ByteDance współpracuje też z zewnętrznymi podmiotami w niektórych projektach – przykładem jest PartCrafter (system generowania modeli 3D z obrazów), tworzony wspólnie z Uniwersytetem Pekińskim i Carnegie Mellon University. Choć to inna dziedzina (3D), wskazuje to szerszą strategię: ByteDance Seed chce być obecne na wielu płaszczyznach AI (tekst, obraz, wideo, 3D). Możliwe, że zespół pracujący nad wideo dzieli się wiedzą z tym od 3D. Tak samo integracja z CapCut (popularnym edytorem video ByteDance) jest prawdopodobna – Jimeng AI jest rozwijany przez ekipę Faceu/Jianying, czyli tę samą która odpowiada za CapCut. Można sobie wyobrazić, że niedługo użytkownicy CapCut otrzymają funkcję „generuj klip z opisu” lub „kontynuuj wideo z tego obrazka”, co byłoby możliwe dzięki technologii Seedance.

Na koniec warto wspomnieć o rywalizacji i współpracy na rynku: ByteDance rywalizuje z OpenAI (Sora), Google (Veo) i Kuaishou (Kling) – to już omówiliśmy. Ale jednocześnie to pokazuje pewną standaryzację celów: wszyscy dążą do modeli, które pozwolą tworzyć filmy „na życzenie”. ByteDance jest częścią tej globalnej sieci badań – korzysta z publikacji open-source (w raporcie dziękują społeczności open-source m.in. za Stable Diffusion czy inne frameworki) i zapewne wymienia doświadczenia np. na konferencjach naukowych. Seedance 1.0 jest więc połączony z innymi projektami nie bezpośrednio organizacyjnie, ale poprzez to, że rozwiązuje podobne problemy – np. ContentV (przyspieszanie trenowania video), SkyReels (generowanie filmów o nieskończonej długości) czy Aquarius (modele wideo do marketingu) to prace cytowane obok Seedance. Zespół ByteDance aktywnie śledzi te badania i dokłada własne – i tak jak dawniej głośno było o GPT vs. LLaMA, tak teraz mamy Sora vs. Seedance vs. Veo vs. Kling – gdzie każdy kolejny projekt podnosi granice możliwości.

Seedance 1.0 dostępny na Deevid.ai

Z modelu Seedance 1.0 od ByteDance można już korzystać komercyjnie — również bezpośrednio z poziomu przeglądarki. Umożliwia to platforma Deevid.ai, która oferuje prosty i szybki interfejs do generowania wideo na podstawie opisu tekstowego lub obrazu.

Na Deevid.ai możesz:

  • tworzyć filmy w rozdzielczości 1080p z wysoką spójnością ruchu,
  • korzystać z funkcji multi-shot (wiele ujęć w jednym klipie),
  • testować różne style i scenariusze bez znajomości technicznych detali,
  • a wszystko to z wykorzystaniem technologii Seedance 1.0 Pro, czyli zoptymalizowanej wersji modelu ByteDance.

Źródła: ByteDance Seed (oficjalna strona projektu Seedance 1.0) seed.bytedance.com; raport techniczny Seedance 1.0: Exploring the Boundaries of Video Generation Models arxiv.orgarxiv.org; omówienie w serwisie The Decoder the-decoder.com; serwis AIbase – artykuły o premierze Seedance 1.0 Pro i konferencji Volcano Engine aibase.com; artykuł TechNode/Reuters o aplikacji Jimeng AI reuters.com; informacje z South China Morning Post o strukturze ByteDance Seed scmp.com; strona projektu Seaweed (ByteDance) seaweed.video.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *