Przez ostatnie tygodnie internet huczał od spekulacji na temat ChatGPT 6. Miał być w pełni multimodalny, miał rozumieć jednocześnie tekst, obraz i dźwięk. Tymczasem to nie OpenAI, lecz Google jako pierwszy udostępnił coś, co w praktyce realizuje tę wizję – tyle że od strony, o której mało kto mówi. Gemini Embedding 2 to nowy model embeddingowy, który potrafi przekształcać w jednolite wektory nie tylko słowa, ale też obrazy i wideo.
Czym jest Gemini Embedding 2 i dlaczego to ważne
Zacznijmy od podstaw. Embedding to sposób zamieniania informacji – zdania, zdjęcia, fragmentu filmu – w ciąg liczb, czyli wektor. Taki wektor opisuje znaczenie danego elementu. Dwa podobne semantycznie zdania dostaną wektory bliskie sobie w przestrzeni matematycznej. To fundament wyszukiwania semantycznego, systemów rekomendacji i baz wiedzy opartych na architekturze RAG.
Dotychczas modele embeddingowe radziły sobie dobrze z tekstem. Niektóre umiały przetworzyć też obrazy. Ale Google w oficjalnym wpisie na blogu ogłosił, że Gemini Embedding 2 obsługuje jednocześnie tekst, obrazy i wideo w ramach jednej przestrzeni wektorowej. To zmiana architektury myślenia o tym, jak maszyny porównują ze sobą różne typy treści.
Multimodalność – nie tam, gdzie jej szukano
Plotki o ChatGPT 6 koncentrowały się na modelu generatywnym. Ludzie wyobrażali sobie chatbota, który jednocześnie widzi, słyszy i pisze. I pewnie taki model kiedyś powstanie. Google poszedł inną drogą – zamiast budować efektowny interfejs, wzmocnił infrastrukturę. Embeddingi to warstwa niewidoczna dla użytkownika końcowego. Nie da się z nimi porozmawiać. Nie wygenerują ładnego obrazka. Za to decydują o tym, czy system poprawnie zrozumie pytanie, znajdzie właściwą odpowiedź i połączy ze sobą informacje z różnych źródeł.

Co potrafi nowy model od Google
Według dokumentacji Google model generuje wektory o wymiarowości 3072, co daje dużą pojemność informacyjną. Obsługuje konteksty do 8192 tokenów. Kluczowe jest jednak co innego: jeden i ten sam model przetwarza tekst, obraz oraz wideo i umieszcza je we wspólnej przestrzeni wektorowej. Oznacza to, że można porównywać jabłka z pomarańczami – a właściwie zdanie z klatką filmową – i uzyskiwać sensowne wyniki podobieństwa.
Google podkreśla, że model osiąga najlepsze rezultaty w benchmarku MTEB (Massive Text Embedding Benchmark) wśród modeli o porównywalnej wielkości. MTEB to obecnie najbardziej uznany standard oceny modeli embeddingowych, obejmujący dziesiątki zadań: od klasyfikacji przez klasteryzację po wyszukiwanie semantyczne.
Embeddingi multimodalne w praktyce
Gdzie to się przydaje? Wyobraź sobie firmową bazę wiedzy. Są w niej instrukcje w PDF-ach, zdjęcia produktów, filmy szkoleniowe. Pracownik wpisuje pytanie: jak wymienić filtr w modelu X. System embeddingowy przetwarza to pytanie na wektor, a potem porównuje go z wektorami wszystkich zasobów – również z klatkami z filmów instruktażowych, na których ktoś demonstruje wymianę filtra. Bez multimodalnych embeddingów ten film byłby niewidoczny dla wyszukiwarki.
Inne zastosowania to moderacja treści (porównywanie opisu z rzeczywistą zawartością obrazu), e-commerce (wyszukiwanie produktów po zdjęciu), analiza mediów społecznościowych czy systemy bezpieczeństwa. W każdym z tych przypadków kluczowe jest to samo: umiejętność porównywania treści różnego typu w jednej przestrzeni matematycznej.
Google kontra reszta – wyścig na embeddingi
Google nie jest jedynym graczem na tym polu. OpenAI oferuje modele z rodziny text-embedding-ada i nowsze text-embedding-3. Cohere rozwija swoje embeddingi wielojęzyczne. Jest też otwartoźródłowy model E5-Mistral i wiele innych. Jednak żaden z tych modeli nie oferował dotąd tak bezpośredniej multimodalności w jednym embeddingu.
Jeff Dean, Chief Scientist w Google DeepMind, od lat podkreśla znaczenie tzw. universal representations – uniwersalnych reprezentacji, które łączą różne typy danych. Gemini Embedding 2 wydaje się realizacją tej filozofii. Model jest dostępny przez Gemini API, co oznacza, że deweloperzy mogą go testować praktycznie od zaraz.
Co z tego wynika dla zwykłego użytkownika
Bezpośrednio – niewiele. Nikt nie będzie ręcznie generował wektorów. Ale pośrednio – bardzo dużo. Lepsze embeddingi oznaczają lepsze wyszukiwanie w Google, trafniejsze odpowiedzi asystentów AI, skuteczniejsze systemy RAG budowane przez firmy i programistów. To jest ta warstwa, która sprawia, że AI nie tylko mówi, ale też wie, o czym mówi.






