Wyobraź sobie, że mówisz swojemu autonomicznemu pojazdowi: „Spieszę się”, a on automatycznie wybiera najszybszą trasę do celu. Naukowcy z Uniwersytetu Purdue odkryli, że takie możliwości są możliwe dzięki integracji autonomicznych pojazdów (AV) z chatbotami opartymi na algorytmach sztucznej inteligencji, takich jak ChatGPT.
Zespół badawczy pod kierownictwem profesora Zirana Wanga zaprezentuje swoje wnioski podczas międzynarodowej konferencji IEEE poświęconej inteligentnym systemom transportu. Badanie jest jednym z pierwszych, które testują, jak dobrze pojazd autonomiczny może interpretować komendy pasażerów i reagować na nie dzięki modelom językowym.
Według Wanga, by pojazdy autonomiczne były w pełni samodzielne, muszą zrozumieć każde polecenie pasażera, nawet jeśli nie jest ono precyzyjnie sformułowane. Przykładem może być taksówkarz, który wie, że kiedy klient mówi, iż się śpieszy, to oczekuje jak najszybszej trasy, bez konieczności podawania szczegółów.
Obecne systemy w pojazdach wymagają od pasażera jasnych i konkretnych instrukcji, często za pomocą przycisków lub uproszczonych komend głosowych. Modele językowe, takie jak ChatGPT, mają jednak zdolność do interpretowania poleceń w bardziej „ludzki” sposób, ponieważ są trenowane na olbrzymich ilościach danych tekstowych i nieustannie uczą się nowych rzeczy.
Badanie nad nowym podejściem
W badaniu przeprowadzonym przez zespół z Purdue, modele językowe nie sterowały bezpośrednio pojazdem, ale wspomagały jego systemy jazdy. ChatGPT był trenowany do rozumienia zarówno bezpośrednich poleceń, takich jak „Przyspiesz”, jak i bardziej subtelnych, np. „Źle się czuję”. Modele te były też zaprogramowane, by uwzględniać zasady ruchu drogowego, warunki pogodowe i dane z czujników pojazdu.
Pojazd, wyposażony w autonomiczny system poziomu czwartego, korzystał z tych modeli podczas testów. Kiedy system rozpoznawania mowy wykrywał komendę pasażera, modele językowe analizowały ją i przekazywały instrukcje do systemu sterującego pojazdem. Zespół testował również moduł pamięci, który zapisywał preferencje pasażerów, aby lepiej dostosować jazdę do ich oczekiwań.
Eksperymenty przeprowadzono na pasie startowym lotniska w Columbus w stanie Indiana, gdzie zespół mógł bezpiecznie testować reakcje pojazdu na różne polecenia. Testy obejmowały również manewry parkowania na terenie stadionu Ross-Ade należącego do Purdue.
Pasażerowie, którzy brali udział w badaniu, ocenili, że ich komfort jazdy był wyższy w porównaniu do wcześniejszych testów pojazdów autonomicznych bez wsparcia modeli językowych. Co więcej, wyniki pokazały, że pojazdy wyposażone w takie modele lepiej reagowały na polecenia, nawet te, których wcześniej nie „nauczyły się”.
Co dalej?
Chociaż modele językowe wykazały się dobrą efektywnością, czas reakcji na polecenia wynosił średnio 1,6 sekundy, co w sytuacjach mniej krytycznych jest akceptowalne, ale wymaga usprawnienia w nagłych przypadkach. Zespół naukowców zauważył też problem tzw. „halucynacji” – czyli błędnej interpretacji komend przez modele językowe, co może prowadzić do nieprawidłowych reakcji pojazdu.
Przed wdrożeniem takich rozwiązań do produkcji pojazdów autonomicznych konieczne będą dalsze testy, jak i regulacje prawne. Naukowcy z Purdue będą kontynuować badania, testując inne modele AI, takie jak Gemini od Google czy Llama od Meta, aby znaleźć najbardziej bezpieczne i efektywne rozwiązania.
Zespół rozważa również możliwość komunikacji między pojazdami za pomocą modeli językowych, co mogłoby ułatwić np. ustalanie pierwszeństwa na skrzyżowaniach. Kolejnym krokiem w badaniach będzie sprawdzenie, jak modele wizualne mogą pomóc pojazdom w ekstremalnych warunkach pogodowych, takich jak zimy w środkowych stanach USA.
Technologia autonomicznych pojazdów zyskuje nowy wymiar, a dzięki zaawansowanym modelom językowym podróżowanie staje się nie tylko bardziej komfortowe, ale i bezpieczne.