Podsumowanie

Ukończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

W tym module przedstawiono podstawowe technologie mowy, które umożliwiają naturalne interakcje głosowe w aplikacjach sztucznej inteligencji. Wiesz już, jak rozpoznawanie mowy konwertuje słowa mówione na tekst i jak synteza mowy generuje dźwięk podobny do człowieka z napisanej zawartości.

W tym module znaleziono następujące elementy:

  • Scenariusze i aplikacje mowy: technologie mowy przekształcają środowiska użytkowników w zakresie obsługi klienta, ułatwień dostępu, konwersacyjnej sztucznej inteligencji, dokumentacji opieki zdrowotnej i uczenia elektronicznego. Zbadano, jak połączenie rozpoznawania i syntezy mowy tworzy płynne dwukierunkowe konwersacje, które są naturalne i zmniejszają napięcia użytkowników.

  • Podstawy rozpoznawania mowy: Przeanalizowano sześcioetapowy proces, który przekształca dźwięk w tekst — od przechwytywania fal dźwiękowych aż do tworzenia sformatowanych transkrypcji. Wiesz już, jak funkcje MFCC wyodrębniają znaczące wzorce z dźwięku, jak modele akustyczne oparte na przekształcaniu przewidują phonemy i jak modele językowe rozpoznają niejednoznaczność, stosując słownictwo i gramatykę.

  • Podstawy syntezy mowy: Odkryliśmy czteroetapowy proces, który przekształca tekst w naturalną mowę — normalizację tekstu, analizę językową, generowanie prosody i syntezę audio. Zbadano, jak konwersja grafemu na fonem radzi sobie z wariantami pisowni, jak modele transformacyjne przewidują naturalny rytm i nacisk oraz jak neuronowe wokodery generują kształty fal dźwiękowych o wysokiej wierności.

Wskazówka

Aby uzyskać więcej informacji, zobacz Wprowadzenie do mowy na platformie Azure.