Podsumowanie
Uwaga / Notatka
Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .
W tym module przedstawiono podstawowe technologie mowy, które umożliwiają naturalne interakcje głosowe w aplikacjach sztucznej inteligencji. Wiesz już, jak rozpoznawanie mowy konwertuje słowa mówione na tekst i jak synteza mowy generuje dźwięk podobny do człowieka z napisanej zawartości.
W tym module znaleziono następujące elementy:
Scenariusze i aplikacje mowy: technologie mowy przekształcają środowiska użytkowników w zakresie obsługi klienta, ułatwień dostępu, konwersacyjnej sztucznej inteligencji, dokumentacji opieki zdrowotnej i uczenia elektronicznego. Zbadano, jak połączenie rozpoznawania i syntezy mowy tworzy płynne dwukierunkowe konwersacje, które są naturalne i zmniejszają napięcia użytkowników.
Podstawy rozpoznawania mowy: Przeanalizowano sześcioetapowy proces, który przekształca dźwięk w tekst — od przechwytywania fal dźwiękowych aż do tworzenia sformatowanych transkrypcji. Wiesz już, jak funkcje MFCC wyodrębniają znaczące wzorce z dźwięku, jak modele akustyczne oparte na przekształcaniu przewidują phonemy i jak modele językowe rozpoznają niejednoznaczność, stosując słownictwo i gramatykę.
Podstawy syntezy mowy: Odkryliśmy czteroetapowy proces, który przekształca tekst w naturalną mowę — normalizację tekstu, analizę językową, generowanie prosody i syntezę audio. Zbadano, jak konwersja grafemu na fonem radzi sobie z wariantami pisowni, jak modele transformacyjne przewidują naturalny rytm i nacisk oraz jak neuronowe wokodery generują kształty fal dźwiękowych o wysokiej wierności.
Wskazówka
Aby uzyskać więcej informacji, zobacz Wprowadzenie do mowy na platformie Azure.