Słownik AI

Rozpoznawanie mowy (Speech recognition, SR)

Rozpoznawanie mowy: definicja i zastosowania AI

Czym jest Rozpoznawanie mowy (Speech recognition)?

Rozpoznawanie mowy to dziedzina informatyki i lingwistyki komputerowej, której celem jest automatyczne przekształcenie sygnału dźwiękowego zawierającego wypowiedź człowieka w zapis tekstowy. Systemy te analizują charakterystykę akustyczną głosu, identyfikują fonemy, a następnie zestawiają je z prawdopodobnymi słowami i frazami w danym języku. Ostatecznym rezultatem jest transkrypcja, którą można przeszukiwać, edytować i przechowywać tak jak dowolny tekst.

Kontekst historyczny i rozwój

Pierwsze udane eksperymenty sięgają 1952 roku, kiedy inżynierowie Bell Labs opracowali system Audrey rozpoznający pojedyncze cyfry wypowiadane przez jedną osobę. Kolejnym kamieniem milowym było finansowane przez DARPA w latach 70. przedsięwzięcie SUR (Speech Understanding Research), w którym zespół Carnegie Mellon University zaprezentował prototyp Hearsay-II rozumiejący ograniczony język angielski. W latach 90. dominację zyskały modele ukrytych łańcuchów Markowa (HMM) łączone z n-gramowymi modelami językowymi. Przełomem w dokładności okazały się jednak dopiero sieci głębokie; w 2011 roku Google zastosowało głębokie sieci neuronowe do rozpoznawania mowy w aplikacji Voice Search, znacząco obniżając współczynnik błędu słów.

Jak dokładnie działa Rozpoznawanie mowy (Speech recognition)

Proces rozpoczyna się od digitalizacji fali akustycznej przy częstotliwości próbkowania co najmniej 16 kHz. Sygnał poddaje się następnie ekstrakcji parametrów, najczęściej mel-cepstralnych współczynników częstotliwości (MFCC) lub ich nowszych wariantów log-Mel. Model akustyczny, bazujący dziś na architekturach takich jak CNN, LSTM czy Transformers, zamienia wektor cech na prawdopodobieństwa fonemów. Równolegle model językowy oblicza prawdopodobieństwo sekwencji słów zgodnych z gramatyką i kontekstem. Dekoder łączy informacje akustyczne i językowe, wyznaczając najbardziej prawdopodobny ciąg wyrazów.

Modele akustyczne i językowe

Modele akustyczne uczą się z dużych korpusów nagrań mowy skojarzonych z transkrypcjami. Współczesne rozwiązania wykorzystują datosety liczące dziesiątki tysięcy godzin nagrań, co pozwala uwzględnić różnorodność akcentów, intonacji i warunków akustycznych. Modele językowe często trenowane są na miliardach słów zaczerpniętych z książek, wiadomości i stron internetowych, dzięki czemu system potrafi przewidywać kolejność słów z wysoką trafnością.

Rola uczenia głębokiego

Sieci neuronowe z mechanizmem uwagi, takie jak Transformer, integrują model akustyczny i językowy w jednym end-to-end systemie. Takie podejście minimalizuje liczbę etapów, upraszcza proces trenowania i poprawia adaptację do nowych domen. Przykładem jest model wav2vec 2.0 zaproponowany przez Facebook AI Research w 2020 roku, który samodzielnie uczy się reprezentacji dźwięku z nieopisanych nagrań, a następnie wykorzystuje mniejszą liczbę próbek z transkrypcją do precyzyjnego rozpoznawania.

Zastosowania w praktyce

Technologia znajduje miejsce w wirtualnych asystentach, systemach transkrypcji służbowych spotkań, notatkach medycznych, aplikacjach do dyktowania czy w centrach obsługi klienta, gdzie pozwala analizować rozmowy w czasie rzeczywistym. Przykładowo student może nagrać wykład smartfonem i otrzymać gotowy tekst, co ułatwia tworzenie notatek.

Zalety i ograniczenia

Automatyczna transkrypcja przyspiesza pracę, obniża koszty i zwiększa dostępność treści dla osób niedosłyszących. Jednak dokładność spada w hałasie, przy silnym akcencie lub w przypadku języków o ograniczonych zasobach danych. Dodatkową barierą bywa konieczność zaawansowanego sprzętu obliczeniowego do trenowania modeli.

Na co uważać?

Wdrażając system rozpoznawania mowy, warto zadbać o zgodność z regulacjami dotyczącymi prywatności, zwłaszcza gdy nagrania zawierają dane wrażliwe. Modele mogą również utrwalać uprzedzenia obecne w danych treningowych, dlatego ważne jest uwzględnienie różnorodnych głosów i dialektów. Sam proces nagrywania powinien odbywać się w możliwie cichym otoczeniu, co znacząco podnosi dokładność transkrypcji.

Dodatkowe źródła

Szerokie omówienie zagadnienia można znaleźć w artykule Rozpoznawanie mowy – Wikipedia. Aktualne badania nad end-to-end systemami prezentuje praca „Speech Recognition with Deep Recurrent Neural Networks” w serwisie arXiv. Warto również przejrzeć specyfikację modelu wav2vec 2.0, aby lepiej zrozumieć współczesne podejścia samouczące.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *