Google ogłosił udostępnienie eksperymentalnej wersji modelu Gemini 2.0 Flash, umożliwiającej natywne generowanie obrazów. Ta funkcjonalność pozwala deweloperom na tworzenie obrazów bezpośrednio z poziomu modelu językowego, co otwiera nowe możliwości w dziedzinie sztucznej inteligencji.
Nowe możliwości Gemini 2.0 Flash
Gemini 2.0 Flash łączy multimodalne dane wejściowe, zaawansowane rozumowanie oraz zrozumienie języka naturalnego, aby generować obrazy. Dzięki temu model może:
- Łączyć tekst i obrazy: Model potrafi ilustrować opowiadania, zachowując spójność postaci i scenerii, a także dostosowywać styl rysunków na podstawie opinii użytkownika.
- Edytować obrazy w sposób konwersacyjny: Użytkownicy mogą iteracyjnie edytować obrazy poprzez dialog w języku naturalnym, co pozwala na eksplorację różnych pomysłów i osiągnięcie pożądanego efektu.
- Wykorzystywać wiedzę o świecie: Model korzysta z wiedzy o świecie i zaawansowanego rozumowania, aby tworzyć realistyczne i szczegółowe obrazy, na przykład ilustrując przepisy kulinarne.
- Renderować tekst: W przeciwieństwie do wielu innych modeli generujących obrazy, Gemini 2.0 Flash skutecznie renderuje dłuższe sekwencje tekstu, co jest przydatne przy tworzeniu reklam, postów w mediach społecznościowych czy zaproszeń.
Korzyści z natywnego generowania obrazów
- Szybkość i efektywność: Możliwość generowania obrazów bezpośrednio przez LLM eliminuje potrzebę korzystania z oddzielnych narzędzi graficznych, co skraca czas realizacji projektów.
- Spójność treści: Integracja tekstu i obrazu w jednym modelu zapewnia lepszą koherencję między opisem a wizualizacją, co jest kluczowe w tworzeniu materiałów edukacyjnych czy marketingowych.
Jak skorzystać z Google LLM Image generator?
Aby skorzystać z generatora obrazów Google opartego na modelu Gemini 2.0 Flash Experimental, należy najpierw uzyskać dostęp do Google AI Studio. Po zalogowaniu się, wprowadź opis pożądanego obrazu w polu tekstowym, precyzując szczegóły, takie jak sceneria, postacie czy styl artystyczny. Następnie model wygeneruje odpowiadający temu opisowi obraz, który można pobrać i wykorzystać zgodnie z potrzebami.

Dodatkowo, Gemini 2.0 Flash umożliwia edycję istniejących obrazów poprzez naturalną rozmowę. Możesz załadować obraz i, używając poleceń w języku naturalnym, wprowadzać zmiany, takie jak modyfikacja kolorów czy dodawanie elementów.
Warto również obejrzeć poniższy film, który demonstruje, jak edytować obrazy za pomocą tekstu przy użyciu Gemini 2.0 Flash:
Jeszcze nie jest idealnie
Pomimo zaawansowanych możliwości, narzędzie wciąż wymaga dopracowania.

Grok, opracowany przez xAI, również oferuje funkcje generowania obrazów. W grudniu 2024 roku Grok został wzbogacony o nowy fotorealistyczny generator obrazów o nazwie Aurora, co znacząco poprawiło jakość generowanych grafik. Użytkownicy chwalą Grok za zdolność do tworzenia wysokiej jakości, fotorealistycznych obrazów, co czyni go konkurencyjnym narzędziem w tej dziedzinie.


Porównanie obu narzędzi wskazuje, że zarówno Gemini 2.0 Flash, jak i Grok mają swoje mocne strony, ale również obszary wymagające udoskonalenia. Mojr doświadczenia sugerują, że Grok może oferować porównywalne, a nawet lepsze rezultaty w pewnych aspektach generowania obrazów. W miarę rozwoju technologii AI możemy spodziewać się dalszych usprawnień w obu narzędziach, co przyniesie korzyści użytkownikom poszukującym zaawansowanych rozwiązań w zakresie generowania obrazów.