Aktualności

AI zdaje maturę – Jak Sztuczna Inteligencja poradziła sobie z wypracowaniem maturalnym?

Sztuczna inteligencja coraz śmielej wkracza w kolejne obszary naszego życia – od biznesu, przez medycynę, aż po kulturę. Teraz nadszedł czas na edukację. Coraz częściej zadajemy sobie pytanie, czy narzędzia AI mogą być nie tylko pomocą w nauce, ale także… zastąpić ucznia przy prawdziwym egzaminie. Interia postanowiła to sprawdzić, zlecając popularnym platformom AI napisanie wypracowania maturalnego z języka polskiego. Ocenę pozostawiono profesjonalnej egzaminatorce. Wyniki? Zaskakujące.

Sztuczna inteligencja na egzaminie – przebieg eksperymentu

Eksperyment przeprowadzony przez Magdalenę Raduchę z Interii miał sprawdzić, jak AI radzi sobie z zadaniem, które dla wielu uczniów jest jednym z największych wyzwań – wypracowaniem maturalnym z języka polskiego.

Do testu wybrano trzy popularne modele AI: ChatGPT, Claude i DeepSeek. Wszystkie otrzymały identyczne polecenie, oparte na prawdziwym tegorocznym temacie maturalnym: „Jak błędna ocena sytuacji wpływa na życie człowieka?”. AI miały odwołać się do wybranych lektur obowiązkowych lub innych utworów literackich, budując spójny i logiczny tekst.

Gotowe prace trafiły do doświadczonej egzaminatorki, która na co dzień sprawdza wypracowania maturalne. Nie poinformowano jej, że autorem tekstów jest sztuczna inteligencja – miała ocenić je zgodnie z oficjalnymi kryteriami obowiązującymi na maturze.

Wyniki i oceny – AI na poziomie najlepszych uczniów?

Po analizie wszystkich prac egzaminatorka przyznała następujące wyniki:

ChatGPT – 33/35 punktów (94%)

Claude – 32/35 punktów (91%)

DeepSeek – 7/35 punktów (20%)

ChatGPT zdobył niemal maksymalną liczbę punktów, a egzaminatorka uznała jego wypracowanie za wzorcowe – poprawne językowo, logiczne, z dobrze dobranymi przykładami z lektur. Claude również poradził sobie bardzo dobrze, choć pojawiły się drobne uchybienia stylistyczne i mniej rozwinięte argumenty.

Największym rozczarowaniem okazał się wynik DeepSeek. Praca była niespójna, pełna błędów i bez wyraźnej tezy, co skutkowało bardzo niską oceną.

Dlaczego AI wypadły tak różnie?

Co zdecydowało o tak dużych różnicach między poszczególnymi AI? Przede wszystkim jakość argumentacji, poprawność językowa i umiejętność budowania spójnej struktury tekstu.

ChatGPT i Claude zbudowały logiczne wypowiedzi, trafnie odwołały się do literatury i spełniły wymogi formalne. DeepSeek nie poradził sobie z tym zadaniem – brakowało mu zarówno poprawnych przykładów, jak i podstawowej spójności oraz poprawności językowej.

Eksperyment pokazał, że choć AI potrafi generować bardzo dobre teksty, nie każdy model jest na to samo przygotowany.

AI w edukacji – zagrożenie czy szansa?

Eksperyment Interii to nie tylko ciekawostka, ale i sygnał dla całego systemu edukacji. Sztuczna inteligencja może być świetnym wsparciem w nauce – pomagać w pisaniu, rozwijaniu myśli, szukaniu przykładów czy ćwiczeniu argumentacji.

Jednocześnie nie zastąpi samodzielnego myślenia, kreatywności i krytycznego podejścia do tekstu. AI popełnia błędy i nie zawsze rozumie kontekst tak, jak człowiek.

Dlatego kluczowe jest, by szkoły i uczniowie nauczyli się korzystać z takich narzędzi odpowiedzialnie i świadomie – nie jako drogi na skróty, ale jako wsparcie w rozwoju umiejętności.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *