Verstehen von Spracherkennung und -synthese
Die Spracherkennung verwendet das gesprochene Wort und konvertiert es in Daten, die verarbeitet werden können – häufig durch Transkribieren in Text. Der gesprochene Text kann in Form einer aufgezeichneten Stimme in einer Audiodatei oder von Liveaufnahmen über ein Mikrofon vorliegen. Sprachmuster werden in der Audiodatei analysiert, um erkennbare Muster zu ermitteln, die Wörtern zugeordnet sind. Hierfür verwendet die Software normalerweise mehrere Modelltypen, einschließlich:
- Ein akustisches Modell, das das Audiosignal in Phoneme (Darstellungen bestimmter Sounds) konvertiert.
- Ein Sprachmodell , das Phonemen Wörtern zuordnet, in der Regel mithilfe eines statistischen Algorithmus, der die wahrscheinlichste Abfolge von Wörtern basierend auf den Phonemen vorhersagt.
Die erkannten Wörter werden meistens in Text konvertiert, den Sie für verschiedene Zwecke verwenden können:
- Bereitstellen von Untertiteln für aufgezeichnete Videos oder Livevideos
- Erstellen eines Transkripts für ein Telefonat oder eine Besprechung
- Automatisiertes Diktat von Notizen
- Bestimmen der beabsichtigten Benutzereingabe für die weitere Verarbeitung
Die Sprachsynthese befasst sich mit vokalierenden Daten, in der Regel durch konvertieren von Text in Sprache. Eine Sprachsyntheselösung benötigt in der Regel die folgenden Informationen:
- Den zu sprechenden Text
- Die Stimme, die zum Sprechen des Texts verwendet werden soll
Um sprache zu synthetisieren, tokenisiert das System den Text in der Regel, um ihn in einzelne Wörter aufzuteilen, und weist jedem Wort phonetische Sounds zu. Anschließend wird die phonetische Transkription in prosodische Einheiten wie Ausdrücke, Klauseln oder Sätze unterteilt, um Phoneme zu erzeugen, die in das Audioformat konvertiert werden. Diese Phoneme werden dann als Audio synthetisiert und können einer bestimmten Stimme, Sprachfrequenz, Tonhöhe und Lautstärke zugewiesen werden.
Sie können die Ausgabe der Sprachsynthese für viele Zwecke verwenden:
- Generieren gesprochener Antworten auf Benutzereingaben
- Erstellen von Sprachmenüs für Telefonsysteme
- Lautes Vorlesen von E-Mails oder SMS in Situationen, in denen Sie keine Hand frei haben
- Öffentliche Durchsagen, z. B. an Bahnhöfen oder Flughäfen