Codex Record & Replay: pokaż workflow raz, a OpenAI zamieni go w powtarzalny skill

OpenAI udostępniło mechanizm Codex Record & Replay dla komputerów mac, który pozwala nagrać dowolną sekwencję czynności wykonywanych na komputerze, a następnie automatycznie przekształcić ją w strukturalny, powtarzalny skill. Zamiast pisać skrypt, wystarczy pokazać agentowi, co ma robić. Agent obserwuje, uogólnia i odtwarza.

Brzmi jak makro? Nie do końca. Klasyczne makro powtarza kliknięcia piksel po pikselu. Skill wygenerowany przez Codex rozumie kontekst interfejsu, potrafi dostosować się do zmienionych etykiet przycisków i samodzielnie weryfikuje, czy każdy krok zakończył się powodzeniem.

Spis treści

Czym dokładnie jest Codex Record & Replay

Funkcja działa w ramach Codex computer-use – środowiska, w którym agent AI widzi ekran tak, jak widzi go człowiek, i może klikać, wpisywać tekst czy przeciągać elementy. Record & Replay dodaje do tego warstwę nagrywania: użytkownik wykonuje workflow ręcznie, a system rejestruje nie tylko surowe zdarzenia wejściowe, lecz również stan wizualny interfejsu i cele poszczególnych kroków.

Na wyjściu powstaje obiekt nazywany skillem. Zawiera on listę kroków, warunki wstępne i kryteria sukcesu. Gdy agent dostanie polecenie ponownego wykonania tego zadania, odtwarza skill krok po kroku, ale z marginesem adaptacji – jeśli przycisk zmienił pozycję albo formularz ma nowe pole, model próbuje dopasować akcję do aktualnego stanu ekranu.

Skille jako budulec automatyzacji

Pojedynczy skill to za mało, żeby zautomatyzować złożony proces. Dlatego OpenAI projektuje skille jako moduły, które można łączyć w łańcuchy. Dokumentacja Codex Skills opisuje je jako zamknięte jednostki wiedzy proceduralnej – każda ma jasno zdefiniowane wejście, wyjście i warunki zakończenia.

Wyobraź sobie pracownika, który co poniedziałek otwiera trzy aplikacje, kopiuje dane z jednej do drugiej, generuje raport i wysyła go mailem. Zamiast uczyć agenta każdej czynności od zera, wystarczy nagrać workflow raz. System rozbije go na skille: „pobierz dane z CRM”, „wklej do arkusza”, „wygeneruj PDF”, „wyślij wiadomość”. Każdy z nich można potem użyć niezależnie lub podmienić jeden krok bez konieczności nagrywania całości od nowa.

Jak wygląda nagrywanie w praktyce

Użytkownik uruchamia tryb nagrywania w aplikacji Codex na Macu. Od tego momentu każda interakcja z systemem jest rejestrowana. Agent widzi zrzuty ekranu, rozpoznaje elementy interfejsu i przypisuje im semantyczne etykiety. Kliknięcie w przycisk „Zapisz” zostaje zapamiętane nie jako „klik w piksel (1240, 680)”, lecz jako „naciśnij przycisk o etykiecie Zapisz w oknie dialogowym eksportu”.

Po zakończeniu nagrywania model generuje czytelny opis kroków wraz z kryteriami weryfikacji. Użytkownik może go przejrzeć, poprawić warunki brzegowe albo dodać komentarz wyjaśniający intencję. Dopiero wtedy skill zostaje zapisany i jest gotowy do ponownego użycia.

Weryfikacja i odporność na zmiany

Każdy krok skilla ma przypisany zestaw kryteriów powodzenia. Agent po wykonaniu akcji sprawdza, czy ekran wygląda zgodnie z oczekiwaniem. Jeśli nie – próbuje alternatywnej ścieżki albo zgłasza błąd. To podejście przypomina testy end-to-end w inżynierii oprogramowania, ale zamiast selektorów CSS model opiera się na rozumieniu wizualnym i językowym.

Taka architektura sprawia, że skille są znacznie bardziej odporne na drobne zmiany interfejsu niż tradycyjne narzędzia RPA (Robotic Process Automation), które łamią się po każdej aktualizacji UI.

Codex Record & Replay a dotychczasowe podejścia do automatyzacji

Klasyczne RPA wymaga definiowania reguł ręcznie. Narzędzia low-code pozwalają budować przepływy z klocków, ale i tak trzeba rozumieć logikę warunkową. Codex Record & Replay eliminuje oba te wymagania – wystarczy wiedzieć, co chce się osiągnąć, i pokazać to jeden raz.

Oczywiście metoda ma ograniczenia. Skomplikowane rozgałęzienia logiczne trudno uchwycić jednym nagraniem. Model może źle zinterpretować intencję, jeśli nagrywający wykonał przypadkowy klik. Dlatego etap przeglądu i edycji skilla jest istotny – to moment, w którym człowiek weryfikuje, czy agent naprawdę zrozumiał zadanie.

Gdzie to ma sens

Funkcja najlepiej sprawdza się tam, gdzie powtarzalny workflow przebiega przez graficzne interfejsy, których nie da się łatwo zintegrować przez API. Przykłady: obsługa wewnętrznych narzędzi korporacyjnych, migracja danych między aplikacjami desktopowymi, rutynowe zadania administracyjne w systemach bez otwartego interfejsu programistycznego.

Dla zespołów już korzystających z agentów AI do automatyzacji zadań to naturalne rozszerzenie możliwości. Zamiast opisywać procedurę w prompcie, można ją po prostu zademonstrować.

Jak używać Codex Record & Replay

Otwórz Plugins/Wtyczki w aplikacji Codex.
Otwórz menu +.
Wybierz Record a skill.
Przejrzyj sugerowany prompt, przekaż Codexowi dodatkowy kontekst, który może być pomocny, i zatwierdź.
Gdy Codex poprosi o zgodę na nagrywanie Twoich działań, zaakceptuj prośbę, kiedy będziesz gotowy pokazać przebieg pracy.
Wykonaj ten proces na swoim Macu.
Gdy skończysz, zatrzymaj nagrywanie z poziomu paska menu, nakładki albo powiedz Codexowi, że skończyłeś.

Podczas nagrywania Codex obserwuje działania oraz zawartość okien potrzebne do nauczenia się danego procesu. Nagrywanie trwa, dopóki go nie zatrzymasz. Skup się ściśle na zadaniu, którego chcesz nauczyć Codexa.

Co to oznacza dla użytkowników

Codex Record & Replay obniża barierę wejścia w automatyzację do minimum. Nie trzeba znać Pythona, nie trzeba rozumieć struktury DOM, nie trzeba konfigurować webhooków. Trzeba umieć wykonać zadanie ręcznie. Resztę bierze na siebie model.

Dla osób śledzących rozwój sztucznej inteligencji jest to przykład szerszego trendu: AI przestaje być narzędziem, które wymaga specjalistycznej obsługi, i staje się asystentem uczącym się przez obserwację. Granica między „pokazaniem komuś, jak coś zrobić” a „zaprogramowaniem automatu” zaciera się – i to jest sedno tego, co Codex Record & Replay wnosi do codziennej pracy z komputerem.

Częste pytania

Jak działa mechanizm Codex Record & Replay?

Codex Record & Replay pozwala nagrać sekwencję czynności na komputerze, a następnie przekształcić ją w powtarzalny skill. Użytkownik wykonuje workflow ręcznie, a system rejestruje zarówno zdarzenia wejściowe, jak i stan wizualny interfejsu.

Czy Codex Record & Replay jest podobny do tradycyjnych makr?

Nie do końca. Klasyczne makra powtarzają kliknięcia piksel po pikselu, podczas gdy skill wygenerowany przez Codex rozumie kontekst interfejsu i potrafi dostosować się do zmian w etykietach przycisków.

Jakie są główne zalety używania Codex Record & Replay?

Codex Record & Replay obniża barierę wejścia w automatyzację, eliminując potrzebę znajomości programowania czy logiki warunkowej. Użytkownik musi jedynie wykonać zadanie ręcznie, a resztę wykonuje model.

W jaki sposób można edytować skill po nagraniu?

Po zakończeniu nagrywania użytkownik może przeglądać wygenerowany opis kroków, poprawić warunki brzegowe lub dodać komentarze wyjaśniające intencję przed zapisaniem skilla.

Gdzie najlepiej wykorzystać Codex Record & Replay?

Funkcja sprawdza się najlepiej w sytuacjach, gdzie powtarzalny workflow przebiega przez graficzne interfejsy, takie jak obsługa narzędzi korporacyjnych czy migracja danych między aplikacjami desktopowymi.