W czerwcu 2025 roku na chińskiej platformie Baidu Youxuan odbyła się transmisja sprzedażowa, która przyciągnęła uwagę całej branży e-commerce. Dwóch gospodarzy – a właściwie dwie cyfrowe postacie stworzone przez sztuczną inteligencję – wygenerowało sprzedaż o wartości 55 milionów juanów, czyli około 28 milionów złotych, w zaledwie siedem godzin. To wynik, którego nie udało się wcześniej osiągnąć żadnemu ludzkiemu influencerowi prowadzącemu sprzedaż na żywo w tym serwisie.
Twarze awatarów wyglądały naturalnie, mówiły płynnie i z zaangażowaniem, odpowiadały na pytania widzów w czasie rzeczywistym i nie traciły energii przez cały czas trwania transmisji. Ich skuteczność potwierdziły liczby: sprzedaż była nie tylko wyższa niż w przypadku dotychczasowych sesji z udziałem ludzi, ale również bardziej dynamiczna – tempo zakupów rosło w miarę trwania livestreamu.
To wydarzenie poruszyło chińską scenę e-commerce, szczególnie że jeden z najpopularniejszych streamerów – Luo Yonghao, mający ponad 24 miliony obserwujących – przyznał wprost, że „efekt cyfrowego człowieka mnie przestraszył”. Jego słowa dobrze oddają nastroje panujące wśród twórców, którzy dostrzegają nie tylko potencjał, ale i zagrożenie płynące z rozwoju AI w sprzedaży online.
Cyfrowe awatary AI
Cyfrowymi awatarami byli dwaj gospodarze: Luo Yonghao – popularny chiński streamer i przedsiębiorca, którego wirtualna wersja prowadziła transmisję wraz z drugim awatarem Xiao Mu. Baidu wykorzystało ich pięcioletnie nagrania jego wystąpień, od spontanicznych żartów po demonstracje sprzętu by wygenerować realistycznego digitalnego klona, zdolnego do żartów, prezentacji produktów i interakcji z widzami. To pierwszy przypadek „dual‑awatarowej” transmisji na platformie Youxuan. Od systemów rekomendacji przeszliśmy do agentów-sprzedawców, którzy potrafią pisać scenariusze, mówić, gestykulować i interaktywnie reagować na czat w czasie rzeczywistym.

Jak to zrobili?
Poniżej analizujemy, jak Baidu połączyło najnowsze modele ERNIE 4.5 Turbo, silnik Huiboxing i autorską technikę generowania „cyfrowych ludzi”, aby uzyskać tak spektakularny rezultat.
Klucz do sukcesu leży w architekturze „LLM → Script → Avatar”, którą Baidu opisuje jako system pięciu modułów :
- Generacja scenariusza
Model ERNIE 4.5 Turbo tworzy wielowątkowy plan odcinka: listę produktów, punktów sprzedażowych, zahaczek emocjonalnych i żartów. Skrypt jest aktualizowany co kilkadziesiąt sekund na podstawie konwersacji z czatem i statystyk koszyka. - Personalizacja stylu
Algorytm prompt-engineering wyciąga z „bazy osobowości” Luo Yonghao charakterystyczne frazy i pauzy, żeby skrypt brzmiał naturalnie. - Przesiew bezpieczeństwa
Oddzielny filtr RLHF (Reinforcement Learning from Human Feedback) sprawdza zgodność z chińskimi wytycznymi regulacyjnymi dotyczącymi treści. - Wielomodalne „agent scheduling”
Jeśli na czacie pojawia się pytanie, które wymaga demonstracji wideo lub grafiki 3D, system automatycznie generuje odpowiednią sekwencję i przekazuje ją do awatara. - Konsola operatorska
Ludzki reżyser nadal ma podgląd i może ręcznie zaakceptować lub odrzucić propozycję skryptu.
Średnie opóźnienie między pytaniem widza a odpowiedzią awatara wynosi <800 ms, co daje złudzenie pełnej „obecności”. Dzięki tokenowej cenie ERNIE (0,004 RMB za 1 000 tokenów) całodzienna sesja kosztuje mniej niż 200zł, czyli poniżej 1% typowego honorarium ludzkiego influencera za analogiczny występ.
Awatar pił wodę, parowała mu oprawka okularów i nawet krzywił usta przy kwaśnym napoju – widzowie nie dowierzali, że to AI.
Baidu planuje otworzyć API awatarów dla zewnętrznych platform, co może przynieść „Uberyzację” handlu live – każdy sklep będzie mógł uruchomić całodobową sprzedaż bez udziału człowieka. Ponadto:
- Multijęzyczność: ERNIE X1 Turbo już teraz obsługuje 200+ języków, co otwiera drogę do globalnych rynków techinasia.com.
- Hiper-personalizacja: analityka behawioralna w czasie rzeczywistym pozwoli awatarom zmieniać ton i wygląd w zależności od nastroju widza.
- Edge AI: migracja inferencji na urządzenia klasy Jetson lub Ascend NPU umożliwi targi, koncerty i galerie handlowe z lokalnymi, „ulotnymi” awatarami, które działają offline.
Jeśli obecna dynamika się utrzyma, do końca 2026 r. ponad połowa sprzedaży w chińskim live-commerce może być animowana przez cyfrowych ludzi – i to niekoniecznie będzie widać gołym okiem.