Startup Versos AI ogłosił uruchomienie pierwszego kompleksowego rozwiązania do przygotowywania i licencjonowania danych treningowych pochodzących z materiałów wideo. Platforma ma rozwiązać jeden z najbardziej palących problemów branży AI: skąd brać wysokiej jakości dane wizualne, żeby trenować coraz bardziej wymagające modele generatywne? Odpowiedź firmy jest prosta — z ogromnych archiwów wideo, które dotąd leżały niewykorzystane.
Dlaczego wideo to wciąż niedocenione źródło danych dla AI
Modele językowe miały internet pełen tekstu. Modele obrazowe — miliardy fotografii. Ale modele wideo? Tu sytuacja wygląda inaczej. Surowy materiał filmowy jest trudny do przetworzenia: zawiera ruch, dźwięk, kontekst czasowy, zmienne oświetlenie i tysiące klatek na minutę. Żeby stał się użyteczny jako dane treningowe, musi zostać poddany segmentacji, anotacji i klasyfikacji. To proces kosztowny, czasochłonny i do niedawna wykonywany w dużej mierze ręcznie.
Tymczasem zapotrzebowanie rośnie lawinowo. Modele takie jak Sora od OpenAI czy Runway Gen-3 potrzebują ogromnych zbiorów danych wideo, żeby generować realistyczne sekwencje filmowe. Problem w tym, że większość istniejących zbiorów danych wideo jest albo zbyt mała, albo obarczona niejasnym statusem prawnym. Firmy boją się pozwów i słusznie, biorąc pod uwagę toczące się spory o prawa autorskie w kontekście trenowania modeli AI.
Versos AI i dane z wideo — jak działa platforma
Versos AI oferuje rozwiązanie end-to-end. Oznacza to, że platforma obsługuje cały łańcuch wartości: od pozyskania surowego materiału wideo, przez jego automatyczne przetworzenie, aż po licencjonowanie gotowych zbiorów danych firmom budującym modele AI.
Proces wygląda następująco. Versos AI współpracuje z właścicielami archiwów wideo — stacjami telewizyjnymi, wytwórniami filmowymi, agencjami informacyjnymi, a nawet instytucjami publicznymi posiadającymi historyczne zasoby audiowizualne. Surowy materiał trafia na platformę, gdzie zostaje automatycznie podzielony na segmenty, otagowany metadanymi i sklasyfikowany pod kątem przydatności treningowej. Algorytmy rozpoznają obiekty, sceny, emocje, ruchy kamery i wiele innych parametrów, tworząc z chaosu pikseli uporządkowaną strukturę.
Kluczowy element to licencjonowanie. Każdy fragment danych ma jasno określony status prawny. Właściciel materiału wie, do czego jego treści zostaną użyte, i otrzymuje wynagrodzenie. Firma kupująca dane wie, że może ich legalnie użyć do treningu modelu. To podejście radykalnie różni się od praktyki scrapowania internetu, która przysparzała branży AI tyle kłopotów prawnych.
Ustrukturyzowane dane wideo a jakość modeli generatywnych
Surowe wideo zawiera wartość, ale trzeba ją wydobyć. Versos AI przetwarza surowiec w materiał gotowy do użycia. I to nie byle jaki materiał. Ustrukturyzowane dane wideo zawierają informacje o dynamice ruchu, fizyce obiektów, zmianie oświetlenia w czasie i kontekście przestrzennym — wszystko to, czego modele generatywne potrzebują, żeby tworzyć wiarygodne sekwencje filmowe zamiast halucynacyjnych kolaży.
Badania pokazują, że jakość danych treningowych ma często większy wpływ na wydajność modelu niż sama architektura sieci neuronowej. Artykuł Chinchilla (Hoffmann et al., 2022) udowodnił to dla modeli językowych. W przypadku wideo zależność jest jeszcze silniejsza, bo przestrzeń możliwych reprezentacji jest znacznie większa. Źle oznaczone dane prowadzą do modeli, które generują ludzi z sześcioma palcami albo samochody przenikające przez ściany.
Właśnie dlatego sztuczna inteligencja potrzebuje nie tylko więcej danych, ale przede wszystkim lepszych danych. Versos AI stawia na tę drugą część równania.
Problem praw autorskich i etyki danych treningowych
Branża AI ma problem wizerunkowy. Wiele firm trenowało swoje modele na danych pobranych z internetu bez zgody twórców. Getty Images pozwało Stability AI. The New York Times pozwał OpenAI. Artyści organizują zbiorowe pozwy przeciwko generatorom obrazów. W tym klimacie legalne źródło danych wideo to konieczność biznesowa.
Versos AI wpisuje się w rosnący trend, który można nazwać odpowiedzialnym pozyskiwaniem danych treningowych. Firma nie jest tu zresztą jedyna. Adobe ze swoim modelem Firefly od początku stawiało na dane licencjonowane. Shutterstock zawarł umowy z firmami AI na udostępnianie swoich zasobów. Ale w segmencie wideo Versos AI jest jednym z pierwszych graczy oferujących tak kompletne rozwiązanie.
Warto przy tym pamiętać, że regulacje takie jak AI Act wprowadzają coraz ostrzejsze wymogi dotyczące transparentności danych treningowych. Firmy, które już teraz budują modele na legalnie pozyskanych zbiorach, będą miały przewagę regulacyjną.
Kto skorzysta na platformie Versos AI
Beneficjentów jest kilku. Po stronie podaży stoją właściciele archiwów wideo, dla których dotychczasowe zasoby generowały minimalne przychody. Stacja telewizyjna, która ma w magazynach dziesiątki tysięcy godzin materiału z ostatnich dekad, nagle zyskuje nowe źródło monetyzacji. Zamiast pozwalać, by taśmy pokrywały się kurzem (a raczej ich cyfrowe odpowiedniki zajmowały miejsce na serwerach), może udostępnić je jako dane treningowe i na tym zarabiać.
Po stronie popytu są firmy rozwijające modele generatywne, systemy rozpoznawania obiektów, autonomiczne pojazdy, narzędzia do edycji wideo i dziesiątki innych zastosowań. Dla nich Versos AI oferuje coś cennego: dane o znanej proweniencji, wysokiej jakości i z czystą licencją.
Jest też trzeci beneficjent, mniej oczywisty: cała branża AI, która zyskuje mechanizm pozwalający na zrównoważony rozwój bez ciągłych sporów prawnych o pochodzenie danych. Jak ujął to jeden z komentatorów branżowych: „The future of AI training data is licensed, not scraped” — przyszłość danych treningowych AI to licencjonowanie, nie scrapowanie.
Techniczne wyzwania przetwarzania wideo na dużą skalę
Zamiana surowego wideo w ustrukturyzowane dane treningowe to zadanie wymagające pod względem obliczeniowym. Minuta materiału filmowego w rozdzielczości 1080p przy 30 klatkach na sekundę to 1800 pojedynczych obrazów. Godzina to ponad 100 000. Archiwum telewizyjne z 30 lat działalności może liczyć setki milionów klatek. Przetworzenie tego wymaga poważnej infrastruktury opartej na GPU i zoptymalizowanych pipeline’ów (potoków przetwarzania).
Versos AI wykorzystuje własne algorytmy do automatycznej segmentacji scen, rozpoznawania obiektów i generowania metadanych. Platforma musi radzić sobie z materiałami o różnej jakości — od krystalicznie czystych nagrań 4K po archiwalne ujęcia z lat 90., zdigitalizowane z taśm analogowych. Każdy z tych formatów niesie inne wyzwania: szumy, artefakty kompresji, niestandardowe proporcje obrazu.
Do tego dochodzi kwestia temporalna. W przeciwieństwie do pojedynczych obrazów wideo zawiera wymiar czasu. Poprawna anotacja musi uwzględniać nie tylko to, co jest na klatce, ale jak obiekty się poruszają, jak zmieniają się sceny i jaka jest relacja przyczynowa między kolejnymi ujęciami. To znacznie trudniejsze niż oznaczanie statycznych fotografii.
Perspektywy rynku danych treningowych z wideo
Rynek danych treningowych dla AI rośnie szybko. Według różnych szacunków jego wartość przekroczy 10 miliardów dolarów w ciągu najbliższych kilku lat. Segment wideo pozostaje przy tym stosunkowo nienasycony — większość dotychczasowej infrastruktury danych treningowych była budowana z myślą o tekście i obrazach statycznych.
Versos AI trafia więc w lukę rynkową. Ale sukces nie jest gwarantowany. Firma będzie musiała przekonać właścicieli archiwów, że warto udostępnić swoje zasoby. Będzie musiała utrzymać jakość anotacji na poziomie, który zadowoli wymagających klientów budujących modele. I będzie musiała poruszać się w coraz bardziej skomplikowanym krajobrazie regulacyjnym.
Jedno jest pewne: modele AI potrzebują coraz lepszych danych wideo, a ktoś musi te dane dostarczać. Versos AI postawił na to, że ten ktoś może działać legalnie, transparentnie i z korzyścią dla wszystkich stron. Jeśli mu się uda, stworzy wzorzec dla całej branży. Jeśli nie — problem i tak nie zniknie, a kolejna firma spróbuje go rozwiązać. Tak czy inaczej, era traktowania archiwów wideo jak cyfrowego złomu dobiega końca. Te zasoby mają wartość — i wreszcie ktoś znalazł sposób, żeby ją wydobyć.







