Modele językowe stały się kluczowym elementem rozwoju zaawansowanej sztucznej inteligencji. Wspierają pracę programistów, badaczy czy osób zmagających się z zawiłymi analizami danych. Ich rosnące zdolności otwierają nowe perspektywy w dziedzinach, w których przetwarzanie informacji i rozumowanie stanowią fundament sukcesu. OpenAI to jedna z najbardziej rozpoznawalnych organizacji na polu SI.
Ogłoszona w Piątek, 20 Grudnia 2024 roku rodzina modeli o3 (obejmująca m.in. o3 oraz o3-mini w trzech wariantach: low, medium i high) stanowi kolejny duży krok w ewolucji systemów AI/SI, zwłaszcza w zakresie efektywnego rozwiązywania zadań matematycznych, kodowania oraz problemów naukowych na poziomie doktoranckim.
W skład rodziny o3 wchodzą dwa główne modele. Pierwszy z nich, o3, stanowi flagowe rozwiązanie o najwyższych obecnie osiągach, zaprojektowane z myślą o rozwiązywaniu najbardziej złożonych zadań.
Drugi model, o3-mini, to propozycja dla użytkowników poszukujących zaawansowanego rozumowania przy jednoczesnej redukcji kosztów i zapotrzebowania na zasoby obliczeniowe. Model ten występuje w trzech wariantach: low, medium i high, które różnią się między sobą czasem potrzebnym na obliczenia oraz finalną precyzją rozumowania. Użytkownik, w zależności od swoich potrzeb, może zdecydować, czy priorytetem są dla niego szybkie odpowiedzi i niskie koszty, czy najwyższa możliwa jakość odpowiedzi.
Zaawansowane zdolności rozumowania
Modele z serii o3 wykazują imponujące możliwości w takich dziedzinach jak:
- Matematyka i zadania olimpijskie Według udostępnionych wyników, w teście AIME (Amerykańskie Zawody Matematyczne na poziomie olimpijskim) o3 osiągnął aż 96,7% poprawnych odpowiedzi, podczas gdy wcześniejszy model o1 zatrzymał się na poziomie 83,3%.
- Generowanie kodu programistycznego Na popularnej platformie konkursów kodowania Codeforces model o3 uzyskał ELO 2727 (przy mocno wydłużonej „fazie myślenia”), podczas gdy o1 osiągał około 1891. Z kolei o3-mini w wariancie low, medium i high umożliwia użytkownikom dostosowanie kosztów i czasu obliczeniowego do poziomu trudności problemu.
- Analiza naukowa i rozwiązywanie problemów na poziomie doktoranckim W teście GPQA Diamond (PhD-level Science Questions) o3 osiągnął ponad 87,7% trafności. Wiele z tych pytań przekracza poziom doktorski w różnych dziedzinach nauki. W wariancie high, o3-mini także zbliża się do znakomitych rezultatów.
Relacja z dnia 12 gdzie zapowiedziano nowy model:
Nowości technologiczne
W serii o3 zaimplementowano szereg ulepszeń względem poprzednich modeli, w tym:
- Funkcja adaptacyjnego czasu rozumowania (Adaptive Thinking Time), pozwalająca modelowi „zastanawiać się” dłużej przy szczególnie zawiłych zadaniach.
- Nowe usprawnienia w kodzie źródłowym i architekturze sieci, co przekłada się na efektywniejsze wykorzystanie mocy obliczeniowej.
- Lepsze algorytmy bezpieczeństwa (safety interventions) oparte o tzw. deliberative alignment, umożliwiające automatyczne wykrywanie i analizę niebezpiecznych lub nieetycznych treści w promptach.
- Lepsza wydajność
Ulepszenia w porównaniu z o1
W najważniejszych obszarach – takich jak generowanie kodu, rozwiązywanie zadań matematycznych czy analiza problemów doktoranckich – modele o3 odnotowały ogromny wzrost jakości:
- +20% w testach kodowania (porównując np. 71,7% dla o3 vs 51%–52% dla o1 na określonych benchmarkach).
- 96,7% w konkursach matematycznych (AIME) w porównaniu z 83,3% modelu o1.
- 87,7% w zadaniach naukowych na poziomie doktoranckim (GPQA Diamond) – prawie 10% więcej niż w przypadku o1.
Postępy GPT o3 w złożonych benchmarkach
- Arc (Abstraction and Reasoning Corpus) – model o3 (przy wysokich ustawieniach obliczeń) osiągnął nawet 87,5% poprawnych odpowiedzi na prywatnym zbiorze testowym – co jest wynikiem przekraczającym średni wynik człowieka eksperta (~85%). To przełomowe osiągnięcie w rozwiązywaniu abstrakcyjnych, nietypowych zadań logicznych.
Koszty i czas przetwarzania
Zwiększone zdolności wiążą się z wyższymi kosztami – w przypadku ekstremalnie wymagających zadań przy użyciu o3 (np. dotyczących długotrwałego generowania kodu lub rozwiązywania złożonych problemów naukowych) koszt może sięgać nawet 1000 USD za jedno zadanie.
Dzięki adaptacyjnemu rozumowaniu, proste zadania potrafią być rozwiązane w ciągu kilku sekund, jednak w przypadku zadań o wysokiej złożoności może to potrwać nawet 15 minut.
Co istotne, wariant o3-mini umożliwia dużo bardziej elastyczne podejście do wydatków. Opcje low, medium i high pozwalają dostosować czas przetwarzania, a co za tym idzie – również koszt. Wszystkie modele GPT o3-mini będą tańsze niż o1.
Mimo że wysokie koszty i czasy obliczeń mogą stanowić wyzwanie, wprowadzenie wariantów mini (low, medium, high) daje nadzieję na szerszą adopcję rozwiązań opartych o sztuczną inteligencję w praktyce. Z jednej strony mamy więc przełomowe zdolności, z drugiej – konieczność solidnego podejścia do bezpieczeństwa i dalszych badań nad wydajnością.
W nadchodzących miesiącach możemy spodziewać się stopniowego udostępniania modeli o3 szerszemu gronu użytkowników, co – przy zachowaniu należytych procedur testowych – przyczyni się do rozwoju nowych aplikacji w biznesie, nauce i edukacji. To ekscytujący okres w historii sztucznej inteligencji, w którym kolejne osiągnięcia będą kształtować przyszłość interakcji człowieka z SI. Model o3 zdecydowanie wyznacza kierunek tej podróży.