Technologia rozpoznawania mowy zrewolucjonizowała sposób, w jaki ludzie korzystają z urządzeń cyfrowych. Asystenci głosowi i funkcje dyktowania stały się niezwykle istotne dla wielu użytkowników. Teraz, Meta, wcześniej znane jako Facebook, podjęło kroki, aby uczynić te technologie dostępnymi dla jeszcze większej liczby osób na całym świecie.
Pionierski projekt Massively Multilingual Speech (MMS) prowadzony przez Meta zrobił olbrzymie kroki w kierunku zwiększenia liczby obsługiwanych języków, a także poprawy jakości modeli rozpoznawania i syntezy mowy. Metoda polega na połączeniu technik uczenia się z nadzorem z różnorodnym zestawem danych, które zawierają czytania tekstów religijnych. Dzięki temu, liczba języków obsługiwanych przez modele rozpoznawania mowy zwiększyła się z około 100 do ponad 1100.
Przełamanie barier językowych to ogromne wyzwanie, zwłaszcza z powodu braku wystarczającej ilości oznaczonych danych dla większości języków. Projekt MMS zastosował unikalne podejście do tego problemu, wykorzystując teksty religijne, takie jak Biblia, które zostały przetłumaczone na wiele języków. Wykorzystanie dostępnych publicznie nagrań audio osób czytających te teksty umożliwiło stworzenie zestawu danych zawierającego czytania Nowego Testamentu w ponad 1100 językach. Co więcej, projekt zwiększył pokrycie językowe, rozpoznając ponad 4000 języków.
W ramach projektu MMS, Meta wykorzystało technikę uczenia się reprezentacji mowy bez nadzoru wav2vec 2.0. Dzięki treningowi samouczących się modeli na około 500 000 godzin danych mowy z 1400 języków, projekt znacznie zmniejszył zależność od danych oznaczonych.
Modele wytrenowane na danych MMS wykazały imponujące wyniki. W porównaniu z Whisperem OpenAI, modele MMS wykazały połowę błędu słów, obsługując jednocześnie 11 razy więcej języków. Ponadto, projekt MMS z powodzeniem zbudował systemy tekst-na-mowę dla ponad 1100 języków. Pomimo ograniczenia liczby różnych mówców dla wielu języków, mowa generowana przez te systemy wykazała wysoką jakość.
Chociaż modele MMS wykazują obiecujące wyniki, ważne jest, aby zauważyć ich niedoskonałości. Nieporozumienia lub błędy transkrypcji modelu mowy na tekst mogą prowadzić do obraźliwego lub nieprecyzyjnego języka. Projekt MMS podkreśla konieczność współpracy w całej społeczności AI, aby zminimalizować takie ryzyka.
Projekt MMS to dowód na to, że Meta jest na czele innowacji w dziedzinie rozpoznawania mowy. Dzięki tej inicjatywie, technologia ta staje się bardziej dostępna dla użytkowników na całym świecie, nieważne jakim językiem mówią. To tylko potwierdza, że przyszłość technologii rozpoznawania mowy jest jasna, a Meta jest jednym z liderów, którzy ją kształtują.
Więcej informacji na temat projektu MMS można znaleźć w oficjalnych publikacjach Meta na temat tej inicjatywy. Meta kontynuuje swoje prace nad udostępnianiem najnowszych informacji i narzędzi dla społeczności badaczy i deweloperów AI na całym świecie. Przyszłość technologii rozpoznawania mowy jest jasna, a Meta jest jednym z liderów, którzy ją kształtują.