Artykuły Narzędzia AI Zaawansowane

Codex na macOS potrafi już używać aplikacji. OpenAI rozwija computer use

Codex na macOS używa aplikacji - OpenAI computer use

Codex na macOS potrafi już samodzielnie otwierać aplikacje, klikać w interfejsy, wypełniać formularze i nawigować po systemie operacyjnym – bez udziału człowieka przy klawiaturze. Agent widzi ekran i działa na nim tak, jak zrobiłby to użytkownik.

Codex na macOS agent systemowy

Codex zaczynał jako narzędzie do pisania i uzupełniania kodu. Pomagał programistom, podpowiadał fragmenty funkcji, generował testy. Teraz przeszedł transformację, której skala zaskakuje nawet osoby śledzące branżę na co dzień. Zgodnie z informacjami opublikowanymi przez OpenAI na oficjalnym blogu, Codex ma być narzędziem do niemal wszystkiego – stąd nazwa wpisu: „Codex for (almost) everything”.

Co to oznacza w praktyce? Agent AI dostaje polecenie w języku naturalnym – na przykład „otwórz przeglądarkę, wejdź na stronę X, pobierz raport PDF i zapisz go w folderze Dokumenty”. I robi to. Sam. Przesuwa kursor, klika przyciski, wpisuje tekst w pola. Widzi interfejs graficzny i interpretuje go, zamiast polegać wyłącznie na API czy linii komend.

Computer use – jak AI uczy się obsługiwać komputer

Idea „computer use” nie jest zupełnie nowa. Anthropic pokazał coś podobnego ze swoim modelem Claude pod koniec 2024 roku. Google pracuje nad projektem Mariner. Ale podejście OpenAI wyróżnia się integracją z konkretnym systemem operacyjnym – macOS – i natywną aplikacją desktopową, która działa jako hub dla agenta.

Jak opisuje OpenAI w prezentacji aplikacji Codex, narzędzie łączy możliwości modeli językowych z percepcją wizualną ekranu. Agent nie potrzebuje specjalnych wtyczek do każdej aplikacji. Zamiast tego patrzy na to, co widzi użytkownik, i podejmuje decyzje na podstawie kontekstu wizualnego. To trochę tak, jakby posadzić przy komputerze kogoś, kto nigdy wcześniej nie widział danego programu, ale potrafi czytać etykiety przycisków i rozumie logikę interfejsów.

Kluczowe jest tu rozróżnienie między automatyzacją a autonomią. Tradycyjne skrypty automatyzujące (Automator na macOS, AppleScript) wymagają precyzyjnych instrukcji krok po kroku. Codex dostaje cel i sam planuje drogę do jego realizacji. Gdy napotka nieoczekiwany dialog, popup albo zmieniony układ strony – adaptuje się.

Co potrafi Codex na macOS w obecnej wersji

Na podstawie materiałów opublikowanych przez OpenAI, w tym wpisu na platformie X, można wskazać kilka kluczowych umiejętności agenta. Po pierwsze, obsługuje natywne aplikacje macOS – Finder, Safari, Mail, a także aplikacje firm trzecich. Po drugie, radzi sobie z wieloetapowymi zadaniami, które wymagają przełączania się między oknami. Po trzecie, potrafi interpretować treść ekranu – czyta tekst, rozpoznaje elementy interfejsu, reaguje na zmiany stanu aplikacji.

Sam OpenAI zaznacza, że system wciąż się uczy. Nie jest nieomylny. Zdarza mu się kliknąć nie ten przycisk, źle zinterpretować kontekst albo utknąć w pętli. Ale tempo poprawy jest szybkie, a każda interakcja z użytkownikiem dostarcza danych do dalszego treningu. Jak ujął to Sam Altman: „Chcemy żeby Codex był narzędziem, którego będziesz używać do niemal wszystkiego” – i widać, że firma traktuje to dosłownie.

Bezpieczeństwo i kontrola nad agentem

Danie sztucznej inteligencji dostępu do kursora i klawiatury budzi oczywiste pytania o bezpieczeństwo. Co jeśli agent przypadkowo usunie pliki? Co jeśli otworzy stronę phishingową, bo tak zinterpretował polecenie? OpenAI adresuje te obawy kilkoma mechanizmami. Agent działa w trybie nadzorowanym – użytkownik widzi każdą akcję w czasie rzeczywistym i może ją przerwać. Istnieje też system uprawnień, który ogranicza dostęp do wrażliwych obszarów systemu.

Warto tu wspomnieć o szerszym kontekście orkiestracji AI i sposobu ich działania. To nie jest prosty chatbot odpowiadający na pytania. To system podejmujący realne akcje w środowisku cyfrowym, co wymaga zupełnie innego podejścia do projektowania zabezpieczeń niż w przypadku modeli czysto konwersacyjnych.

Kwestię tę bada też środowisko akademickie. Badacze z projektu SWE-bench testują zdolność modeli do rozwiązywania prawdziwych problemów w repozytoriach kodu – i Codex regularnie pojawia się w czołówce rankingów. To daje pewien miernik dojrzałości technologii, choć computer use w środowisku desktopowym to zadanie znacznie bardziej złożone niż operacje na kodzie źródłowym.

Dla kogo jest Codex na macOS

Na pierwszy rzut oka odpowiedź brzmi: dla programistów. I rzeczywiście – automatyzacja powtarzalnych zadań developerskich (uruchamianie testów, konfiguracja środowisk, przegląd pull requestów) to naturalny przypadek użycia. Ale ambicje OpenAI sięgają dalej. Codex ma być asystentem dla każdego, kto pracuje przy komputerze. Marketerzy, analitycy, projektanci, menedżerowie – wszyscy wykonują dziesiątki rutynowych czynności dziennie, które agent mógłby przejąć.

Wyobraź sobie, że mówisz: „zbierz dane sprzedażowe z ostatniego kwartału z trzech arkuszy, stwórz zestawienie i wyślij je mailem do zespołu”. Codex otwiera Numbers, kopiuje odpowiednie kolumny, wkleja do nowego arkusza, formatuje tabelę, otwiera Mail, załącza plik i wysyła. Trzy minuty zamiast dwudziestu. Brzmi banalnie, ale to właśnie takie banalne zadania pochłaniają godziny tygodniowo.

Jeśli interesuje cię, jak narzędzia AI zmieniają codzienną pracę z danymi i dokumentami, warto przeczytać o ChatGPT i jego praktycznych zastosowaniach – Codex wyrasta z tego samego ekosystemu, ale idzie o krok dalej, bo nie tylko odpowiada, lecz działa.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *