Zusammenfassung

1 Minute

Hinweis

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

In diesem Modul haben Sie die grundlegenden Sprachtechnologien untersucht, die natürliche Sprachinteraktionen in KI-Anwendungen ermöglichen. Sie haben gelernt, wie die Spracherkennung gesprochene Wörter in Text konvertiert und wie die Sprachsynthese menschliches Audio aus geschriebenen Inhalten generiert.

In diesem Modul haben Sie Folgendes entdeckt:

Sprachszenarien und -anwendungen: Sprachtechnologien transformieren Die Benutzererfahrungen über den Kundenservice, Barrierefreiheit, Unterhaltungs-KI, Dokumentation im Gesundheitswesen und E-Learning. Sie haben untersucht, wie die Kombination von Spracherkennung und Synthese flüssige bidirektionale Unterhaltungen erzeugt, die sich natürlich anfühlen und Benutzerhindernisse verringern.
Grundlagen der Spracherkennung: Sie haben die sechsstufige Pipeline untersucht, die Audio in Text konvertiert – von der Aufnahme von Soundwellen bis hin zur Erstellung formatierter Transkriptionen. Sie haben gelernt, wie MFCC aussagekräftige Muster aus Audio extrahiert, wie transformatorbasierte akustische Modelle Phoneme vorhersagen und wie Sprachmodelle Mehrdeutigkeit auflösen, indem Sie Vokabular und Grammatikkenntnisse anwenden.
Grundlagen der Sprachsynthese: Sie haben den vierstufigen Prozess entdeckt, der Text in natürliche Sprache transformiert – Textnormalisierung, linguistische Analyse, Generierung von Prosodys und Audiosynthese. Sie haben untersucht, wie die Grapheme-zu-Phoneme-Konvertierung Rechtschreibvarianten behandelt, wie Transformatormodelle natürliche Rhythmen und Betonung vorhersagen und wie neurale Vocoder High-Fidelity-Audiowellenformen generieren.

Tipp

Weitere Informationen finden Sie unter "Erste Schritte mit sprache" in Azure.

Feedback

War diese Seite hilfreich?