Aktualności

OpenAI w pościgu za Google w wyścigu do uruchomienia 'Multimodal’ LLM

OpenAI w pościgu za Google

Sztuczna inteligencja (AI) to jedna z najbardziej obiecujących i jednocześnie najbardziej rywalizacyjnych dziedzin technologii. Dwie czołowe organizacje zajmujące się badaniami i rozwojem AI, OpenAI i Google, toczą zaciętą walkę o stworzenie najbardziej zaawansowanego i wszechstronnego modelu językowego, który potrafi nie tylko generować tekst, ale także rozumieć i operować na innych typach danych, takich jak obrazy, dźwięk czy wideo.

Model Multimodalny LLM Google – Gemini:

Gemini to najnowsza innowacja od Google w dziedzinie modeli językowych. Ten model jest w stanie jednocześnie przetwarzać obrazy i tekst, co pozwala na interakcje z użytkownikiem na zupełnie nowym poziomie. Dzięki Gemini, użytkownicy mogą na przykład dostarczyć szkic strony internetowej, a model automatycznie generuje odpowiedni kod. Google podzieliło się tym modelem z wybranymi firmami zewnętrznymi, co wskazuje na to, że jest on już w zaawansowanej fazie rozwoju.
O Gemini pisaliśmy w tym artykule: Gemini, nowy model językowy Google DeepMind, przewyższa możliwości ChatGPT

Model Multimodalny LLM OpenAI – GPT-4 z GPT-Vision:

Z kolei OpenAI, znane z serii modeli GPT, wprowadza do gry GPT-4 z dodatkiem GPT-Vision. Ten model, podobnie jak Gemini, potrafi przetwarzać zarówno obrazy, jak i tekst. Co więcej, OpenAI poszło krok dalej, udostępniając te funkcje firmie Be My Eyes, która pomaga osobom niewidomym i słabowidzącym. To pokazuje, że technologia ta ma potencjał nie tylko w komercyjnych zastosowaniach, ale także w pomocy społecznościom potrzebującym.

Wyobraź sobie model, który potrafi pracować zarówno z obrazami, jak i tekstem. Może on na przykład generować kod dla strony internetowej, widząc jedynie szkic tego, jak użytkownik chce, aby strona wyglądała. Albo analizować wizualne wykresy i dostarczać tekstowe podsumowanie, dzięki czemu nie musisz pytać znajomego inżyniera, co one oznaczają.

W obliczu tych informacji można się zastanawiać, która z firm pierwsza wprowadzi swoje rozwiązanie na rynek i jakie to będzie miało implikacje dla przyszłości technologii językowych.

Czy Google, znane z dominacji w wielu dziedzinach technologii, będzie pierwsze?

Czy może OpenAI, młodsza, ale bardzo ambitna firma, zaskoczy wszystkich?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *