Sam Altman poinformował o udostępnieniu pod koniec zeszłego tygodnia o nowej wersji modelu: „GPT-5.1 już jest! To fajna poprawka. Szczególnie podobają mi się udoskonalenia w trzymaniu się instrukcji i dynamiczne myślenie”. W komunikatach medialnych podkreślano, że celem aktualizacji jest m.in. lepsze podążanie za instrukcjami użytkownika oraz bardziej naturalny ton wypowiedzi. Na dowód większego posłuszeństwa Sam wskazał, że teraz jeżeli wskażesz w instrukcjach niestandardowych lub nakażesz czatowi żeby zapamiętał „nie używaj myślników” – czat się posłucha. Czy rzeczywiście?
Zaraz po premierze zaczęły pojawiać się raporty użytkowników i niektóre dotyczyły bardzo prostych kwestii, jak: myślników w wypowiedziach czy pytanie o emoji konika morskiego — które miały być „naprawione”, ale w praktyce nadal generują błędy.
Przeklęty Konik Morski
Jeżeli czatowi zadacie pytanie „Czy istnieje ikonka emoji konika morskiego?” ten zacznie się plątać i może wpaść w pętlę. W wersji 5.1 jeżeli pytanie zada się po angielsku to chat odpowiada prawidłowo.

Lecz jeżeli zadacie to samo pytanie z błędem lub po polsku to „zaczynają się schody”.
Co ciekawe Gemini google nie ma problemu z odpowiedzią na to pytanie.

Niezniszczalne myślniki
Sam Altman przygotował oddzielny wpis na social mediach żeby pochwalić się tym, że czat już nie musi używać myślników.
Przedwcześnie – użytkownicy natychmiast zaczęli zgłaszać, że niestety czat pomimo instrukcji wciąż myślników używa.

Pomimo instrukcji niestandardowych i zgłoszenia przez system, że informacja została zapamiętana, w tym samym czacie myślniki pojawiają się w odpowiedzi.

Skąd problemy?
Problemy obserwowane w GPT-5.1 — od nadużywania myślników po absurdalne reakcje na pytanie o emoji konika morskiego — wynikają z fundamentalnej natury dużych modeli językowych. System uczy się na ogromnych zbiorach tekstów, w których określone wzorce stylistyczne, jak częste stosowanie myślników w artykułach i esejach, są nad-reprezentowane. W efekcie model traktuje je jako „bezpieczny” sposób łączenia myśli, nawet jeśli użytkownik prosi o ich unikanie, ponieważ preferencja ta została silnie utrwalona w danych. Z kolei sytuacje takie jak seahorse-gate pokazują inną stronę tego samego mechanizmu: model próbuje uzupełnić brakującą wiedzę wzorcami statystycznymi, zamiast jednoznacznie przyznać, że czegoś nie ma. Jeśli dane treningowe zawierają dużo odpowiedzi typu „tak, oto emoji…”, system może „zmyślić” odpowiedź, gdy konfrontuje się z brakiem jak w przypadku nieistniejącego emoji konika morskiego. Wspólnym mianownikiem tych błędów jest to, że model nie posiada twardej, logicznej reprezentacji faktów, lecz statystyczne przewidywanie najbardziej prawdopodobnej kontynuacji tekstu, co w niektórych sytuacjach prowadzi do spektakularnie absurdalnych pomyłek.
Czekamy na kolejną aktualizację…



