Sprachsynthese
Hinweis
Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".
Sprachsynthese , auch als Text-zu-Sprache (TTS) bezeichnet, wandelt geschriebenen Text in gesprochene Audiodaten um. Wenn virtuelle Assistenten Benachrichtigungen lesen, Navigations-Apps Wegbeschreibungen ankündigen, oder Tools für die Barrierefreiheit helfen Benutzern, geschriebene Inhalte hörbar zu nutzen, tritt die Sprachsynthese auf.
Sprachsynthesesysteme verarbeiten Text über vier verschiedene Stufen. Jede Stufe wandelt die Eingabe inkrementell um und baut auf eine endgültige Audiowellenform hin, die natürlich und verständlich klingt.
Textnormalisierung: Standardisieren des Texts
Die Textnormalisierung bereitet rohen Text für die Aussprache vor, indem Abkürzungen, Zahlen und Symbole in gesprochene Formen erweitert werden.
Betrachten Sie den Satz: "Dr. Smith bestellte 3 Artikel für $25,50 am 12.15.2023."
Ein Normalisierungssystem wandelt es um: "Doctor Smith bestellte drei Artikel für fünfundzwanzig Dollar und fünfzig Cent am 15. Dezember, zweitausenddreiundzwanzig."
Allgemeine Normalisierungsaufgaben umfassen:
- Erweiterung der Abkürzungen ("Dr." wird "Doctor", "Inc." wird "Incorporated")
- Konvertieren von Zahlen in Wörter ("3" wird "drei", "25,50" wird "fünfundzwanzig Komma fünf null")
- Die Verarbeitung von Datums- und Uhrzeitangaben ("15.12.2023" wird "fünfzehnten Dezember, zweitausenddreiundzwanzig")
- Verarbeitungssymbole und Sonderzeichen ("$" wird zu "Dollar", "@" wird "at")
- Homographen anhand des Kontexts auflösen („der Band” gegenüber „das Band“)
Die Textnormalisierung verhindert, dass das System versucht, unformatierte Symbole oder Ziffern auszusprechen, was zu einer unnatürlichen oder unverständlichen Ausgabe führen würde.
Tipp
Für unterschiedliche Domänen sind spezielle Normalisierungsregeln erforderlich. Medizinischer Text behandelt Arzneimittelnamen und Dosierungen anders als Finanztext währungen und Prozentsätze.
Linguistische Analyse: Zuordnen von Text zu Phonemen
Die linguistische Analyse bricht normalisierten Text in Phonemen (die kleinsten Klangeinheiten) auf und bestimmt, wie jedes Wort pronomiert wird. Die sprachliche Analysephase:
- Segmentiert Text in Wörter und Silben.
- Sucht die Aussprachen von Wörtern in Lexika (Aussprachewörterbücher).
- Wendet G2P-Regeln oder neurale Modelle an, um unbekannte Wörter zu behandeln.
- Markiert Silbengrenzen und identifiziert gestresste Silben.
- Bestimmt den phonetischen Kontext für benachbarte Sounds.
Grapheme-zu-Phoneme-Konvertierung
Bei der Graphem-zu-Phonem-Konvertierung (G2P) werden geschriebene Buchstaben (Grapheme) zu Aussprachelauten (Phonemen) zugeordnet. Die englische Schreibweise weist nicht zuverlässig auf die Aussprache hin, sodass G2P-Systeme sowohl Regeln als auch gelernte Muster verwenden.
Beispiel:
- Das Wort „singt“ wird zu /zɪŋt/
- Das Wort "through" wird zu /θruː/ umgewandelt.
- Das Wort „sinkt“ wird zu /zɪŋkt/
Jedes Wort enthält die Buchstaben "ough", aber die Aussprache unterscheidet sich dramatisch.
Moderne G2P-Systeme verwenden neurale Netzwerke, die auf Aussprachewörterbüchern trainiert werden. Diese Modelle lernen Muster zwischen Rechtschreibung und Klang, behandeln ungewöhnliche Wörter, Eigennamen und regionale Variationen besser als regelbasierte Systeme.
Bei der Ermittlung von Phonemen verwendet die linguistische Analyse häufig ein Transformatormodell , um den Kontext zu berücksichtigen. Beispielsweise wird das Wort "Lesen" in "Ich lese Bücher" anders ausgesprochen (präsensisch: /riːd/) im Vergleich zu "Ich lese das Buch gestern" (past tense: /rɛd/).
Prosody-Generierung: Bestimmen der Aussprache
Prosodie bezieht sich auf den Rhythmus, die Betonung und die Intonationsmuster, die Sprache natürlich klingen lassen. Prosodie-Generierung bestimmt , wie Wörter gesagt werden, und nicht nur welche Laute zu erzeugen sind.
Elemente der Prosodie
Prosody umfasst mehrere Gesangsmerkmale:
- Tonhöhenkonturen: Steigende oder fallende Intonationsmuster, die Fragen gegenüber Aussagen signalisieren
- Dauer: Wie lange man jeden Sound hält, wodurch Betonung oder natürlicher Rhythmus entsteht
- Intensität: Volumenvariationen, die wichtige Wörter hervorheben
- Pausen: Umbrüche zwischen Ausdrücken oder Sätzen, die das Verständnis unterstützen
- Stressmuster: Welche Silben in Wörtern und Sätzen Hervorhebung erhalten
Prosody wirkt sich erheblich darauf aus, wie gesprochener Text interpretiert wird. Überlegen Sie beispielsweise, wie sich der folgende Satz ändert, je nachdem, welche Silben oder Wörter hervorgehoben werden:
- "Ich habe nie gesagt, dass er den Kuchen atte."
- "Ich habe nie gesagt , dass er den Kuchen atte."
- "Ich habe nie gesagt, dass er den Kuchen atte ."
- "Ich habe nie gesagt, dass er den Kuchen atte."
Transformatorbasierte Prosodyvorhersage
Moderne Sprachsynthesesysteme verwenden neurale Transformatornetzwerke, um prosody vorherzusagen. Transformer-Modelle sind dafür bekannt, den Kontext über komplette Sätze zu erfassen und nicht nur benachbarte Wörter.
Der Prozess der Generierung von Prosodie:
- Eingabecodierung: Der Transformator empfängt die Phonemesequenz mit sprachlichen Merkmalen (Interpunktion, Teil der Sprache, Satzstruktur)
- Kontextanalyse: Self-Attention-Mechanismen identifizieren Beziehungen zwischen Wörtern (z. B. auf welches Substantiv sich ein Pronomen bezieht, wo Satzgrenzen verlaufen)
- Prosodyvorhersage: Das Modell gibt pro Phoneme vorhergesagte Werte für Pitch, Dauer und Energie aus.
- Stilfaktoren: Das System berücksichtigt Sprechstile (neutral, ausdrucksstarke, unterhaltungsstarke) und Sprechermerkmale.
Transformermodelle sagen Prosodie voraus, indem sie aus Tausenden von Stunden aufgezeichneter Sprache lernen, die mit Transkripten gekoppelt sind. Das Modell erkennt Muster: Fragen enden mit einem höheren Ton, Kommas signalisieren kurze Pausen, hervorgehobene Wörter werden leicht verlängert, und die Wörter am Satzende fallen oft in der Tonhöhe ab.
Faktoren, die die Auswahl von Prosodie beeinflussen:
- Syntax: Klauselgrenzen geben an, wo angehalten werden soll
- Semantik: Wichtige Konzepte erhalten Betonung
- Diskurskontext: Kontrastierende Informationen oder Antworten auf Fragen können zusätzlichen Stress tragen
- Sprecheridentität: Jede Stimme hat einen charakteristischen Tonhöhenbereich und eine Sprechgeschwindigkeit.
- Emotionaler Ton: Aufregung, Sorge oder Neutralität formen prosodische Muster
Die Prosodyvorhersagen erstellen eine Zielspezifikation: "Produzieren Sie die Phoneme /æ/ bei 180 Hz für 80 Millisekunden mit moderater Intensität, und anhalten Sie dann 200 Millisekunden."
Von Bedeutung
Prosody wirkt sich dramatisch auf die Natürlichkeit aus. Roboterartige Sprache resultiert oft aus flacher, monotoner Prosodie – nicht aus unvollkommener Phonem-Aussprache.
Sprachsynthese: Audio generieren
Sprachsynthese generiert die endgültige Audiowellenform basierend auf den Phonemesequenz- und Prosodyspezifikationen.
Wellenform-Erzeugungsansätze
Moderne Systeme verwenden neurale Vocoder – Deep Learning-Modelle, die Audiobeispiele direkt generieren. Beliebte Vocoder-Architekturen sind WaveNet, WaveGlow und HiFi-GAN.
Der Syntheseprozess:
- Akustische Funktionsgenerierung: Ein akustisches Modell (oft ein Transformator) wandelt Phoneme und Prosodyziele in Mel-Spektrogramme um – visuelle Darstellungen von Klangfrequenzen im Laufe der Zeit
- Vocodierung: Der neurale Vocoder konvertiert Mel-Spektrogramme in rohe Audiowellenformen (Sequenzen von Amplitudenwerten bei 16.000-48.000 Proben pro Sekunde)
- Nachbearbeitung: Das System wendet Filter-, Normalisierungs- oder Audioeffekte an, um die Zielausgabespezifikationen abzugleichen.
Hinweis
Was macht neuronale Vocoder effektiv?
- High Fidelity: Erzeugt Audioqualität, die Studioaufnahmen nahekommt
- Natürlichkeit: Erfassen Sie subtile Stimmeigenschaften wie Atemgefühl und Sprachqualität
- Effizienz: Echtzeitgenerierung auf moderner Hardware (wichtig für interaktive Anwendungen)
- Flexibilität: Passen Sie sich an verschiedene Lautsprecher, Sprachen und Sprachstile an.
Der Vocoder führt im Wesentlichen die Umkehrung der Funktion der automatischen Spracherkennung aus – während die Spracherkennung Audio in Text konvertiert, konvertiert der Vocoder linguistische Darstellungen in Audio.
Die vollständige Pipeline in Aktion
Wenn Sie die Sprachsynthese für "Dr. Chens Termin um 3:00 Uhr" anfordern:
- Die Textnormalisierung erweitert es auf "Arzt Chens Termin ist um drei Uhr P M"
- Die linguistische Analyse wandelt sie in Phoneme um: /ˈdɑktər ˈtʃɛnz əˈpɔɪntmənt ɪz æt θri əˈklɑk pi ɛm/
- Die Prosodieerzeugung prognostiziert einen leichten Tonanstieg bei „Termin“, eine Pause nach „ist“ und eine Betonung von „drei“
- Sprachsynthese generiert eine Audiowellenform, die diesen Spezifikationen entspricht.
Der gesamte Prozess wird in der Regel in weniger als einer Sekunde auf moderner Hardware abgeschlossen.