Synteza mowy

Ukończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

Synteza mowy — nazywana również zamianą tekstu na mowę (TTS) — konwertuje tekst pisany na dźwięk mówiony. Spotykasz się z syntezą mowy, gdy asystenci wirtualni odczytują powiadomienia, aplikacje nawigacyjne ogłaszają wskazówki, a narzędzia ułatwień dostępu pomagają użytkownikom słuchać treści pisanych.

Systemy syntezy mowy przetwarzają tekst przez cztery odrębne etapy. Każdy etap przekształca dane wejściowe przyrostowo, tworząc ostateczny kształt fal dźwięku, który brzmi naturalnie i zrozumiało.

Normalizacja tekstu: standaryzacja tekstu

Normalizacja tekstu przygotowuje nieprzetworzony tekst do wymowy, przekształcając skróty, liczby i symbole do form mówionych.

Rozważ zdanie: "Dr Smith zamówił 3 przedmioty za 25,50 dolarów w dniu 12/15/2023."

System normalizacji konwertuje go na: "Doktor Smith zamówił trzy przedmioty za kwotę dwudziestu pięciu dolarów i pięćdziesięciu centów piętnastego grudnia dwa tysiące dwudziestego trzeciego roku."

Typowe zadania normalizacji obejmują:

  • Rozszerzanie skrótów ("Dr." staje się "Doctor", "Inc." staje się "Incorporated")
  • Konwertowanie liczb na wyrazy ("3" staje się "trzy", "25,50" staje się "dwadzieścia pięć punktów pięć zero")
  • Obsługa dat i godzin ("12/15/2023" staje się "grudzień piętnaście, dwa tysiące dwudziestu trzech")
  • Przetwarzanie symboli i znaków specjalnych ("$" staje się "dolarami", "@" staje się "at")
  • Rozpoznawanie homografów na podstawie kontekstu ("czyta" jako czas teraźniejszy w porównaniu z "czytał" jako czas przeszły)

Normalizacja tekstu uniemożliwia systemowi wymawianie nieprzetworzonych symboli lub cyfr, co spowodowałoby nienaturalne lub niezrozumiałe dane wyjściowe.

Wskazówka

Różne domeny wymagają wyspecjalizowanych reguł normalizacji. Tekst medyczny obsługuje nazwy leków i dawki inaczej niż tekst finansowy obsługuje walutę i procenty.

Analiza lingwistyczna: Mapowanie tekstu na fonemy

Analiza językowa dzieli znormalizowany tekst na fonemy (najmniejsze jednostki dźwięku) i określa, jak wymawiać każde słowo. Etap analizy językowej:

  1. Dzieli tekst na słowa i sylaby.
  2. Wyszukuje wymowę wyrazów w leksykonach (słowniki wymowy).
  3. Stosuje reguły G2P lub modele neuronowe do obsługi nieznanych słów.
  4. Oznacza granice sylab i identyfikuje akcentowane sylaby.
  5. Określa kontekst fonetyczny dla sąsiednich dźwięków.

Konwersja grafu na phoneme

Konwersja grapheme-to-phoneme (G2P) mapuje zapisane litery (grafemy) na dźwięki wymowy (fonemy). Pisownia angielska nie wskazuje niezawodnie wymowy, dlatego systemy G2P używają zarówno reguł, jak i wyuczonych wzorców.

Przykład:

  • Słowo "choć" przekształca się na /θoʊ/
  • Słowo "through" wymawia się jako /θruː/
  • Angielskie słowo "cough" konwertuje na /kɔːf/

Każde słowo zawiera litery "ough", ale wymowa różni się dramatycznie.

Nowoczesne systemy G2P używają sieci neuronowych wyszkolonych w słownikach wymowy. Modele te uczą się wzorców między pisownią a dźwiękiem, radzą sobie z nietypowymi słowami, nazwami własnymi i regionalnymi wariacjami języka bardziej elegancko niż systemy oparte na regułach.

Podczas określania fonemów analiza lingwistyczna często używa modelu przekształcania , aby ułatwić rozważenie kontekstu. Na przykład słowo "read" jest wymawiane inaczej w "I read books" (czas teraźniejszy: /riːd/) w porównaniu do "I read that book yesterday" (czas przeszły: /rɛd/).

Generowanie prosody: określanie wymowy

Prosodia odnosi się do rytmu, akcentu i wzorców intonacji, które sprawiają, że mowa brzmi naturalnie. Generacja prozodii określa jak powiedzieć słowa, a nie tylko które dźwięki trzeba wytworzyć.

Elementy prosodii

Prosody obejmuje kilka cech wokalnych:

  • Kontury intonacyjne: Rosnące lub opadające wzorce intonacyjne, które sygnalizują pytania w porównaniu z oznajmieniami.
  • Czas trwania: Jak długo trzymać dźwięk, tworząc nacisk i naturalny rytm
  • Intensywność: wariacje głośności, które podkreślają ważne słowa
  • Pauzy: przerwy między frazami lub zdaniami, które pomagają w zrozumieniu
  • Wzorce stresu: Które sylaby otrzymują nacisk w słowach i zdaniach

Prosody ma znaczący wpływ na sposób interpretowania tekstu mówionego. Rozważmy na przykład, jak następujące zdanie zmienia znaczenie w zależności od tego, która sylaable lub wyraz jest podkreślony:

  • "Nigdy nie powiedziałem , że jedł ciasto."
  • "Nigdy nie powiedziałem, że jedł ciasto."
  • "Nigdy nie powiedziałem, że jedł ciasto."
  • "Nigdy nie powiedziałem, że jedł ciasto."

Przewidywanie prozodii oparte na modelu Transformer

Nowoczesne systemy syntezy mowy używają sieci neuronowych typu transformer w celu przewidywania prozodii. Funkcja Transformers wyróżnia się w zrozumieniu kontekstu w obrębie całych zdań, a nie tylko sąsiednich wyrazów.

Proces generowania prosody:

  1. Kodowanie wejściowe: transformator odbiera sekwencję fonemy z cechami językowymi (interpunkcja, część mowy, struktura zdań)
  2. Analiza kontekstowa: Mechanizmy samo-uwagi identyfikują relacje między wyrazami (na przykład który rzeczownik jest referencją dla zaimka, gdzie są granice zdań)
  3. Przewidywanie prozodii: model generuje przewidywane wartości dla wysokości tonu, czasu i energii dla każdego fonemu
  4. Czynniki stylu: system uważa styl mówienia (neutralny, ekspresyjny, konwersacyjny) i cechy osoby mówiącej

Transformery przewidują prozodię, ucząc się z tysięcy godzin nagranej mowy połączonej z transkrypcjami. Model odkrywa wzorce: pytania rosną w tonie na końcu, przecinki sygnalizują krótkie przerwy, podkreślane słowa nieco się wydłużają, a słowa końcowe zdania często spadają w tonie.

Czynniki wpływające na wybory prosodii:

  • Składnia: Granice zdania wskazują, gdzie należy zrobić pauzę
  • Semantyka: ważne pojęcia otrzymują nacisk
  • Kontekst rozmowy: Kontrastujące informacje lub odpowiedzi na pytania mogą nieść dodatkowy nacisk
  • Tożsamość osoby mówiącej: Każdy głos ma charakterystyczny zakres tonacji oraz tempo mówienia
  • Emocjonalny ton: Podniecenie, troska lub neutralność kształtują prozodyczne wzorce

Przewidywania prosody tworzą specyfikację docelową: "Wyprodukować fonem /æ/ przy 180 Hz przez 80 milisekund z umiarkowaną intensywnością, a następnie wstrzymać się na 200 milisekund."

Ważne

Intonacja znacząco wpływa na naturalność. Mowa brzmiąca jak robot często wynika z płaskiej, monotonnej prozodii — a nie z niedoskonałej wymowy fonemów.

Synteza mowy: generowanie dźwięku

Synteza mowy generuje końcowy kształt fali audio na podstawie sekwencji phoneme i specyfikacji prosody.

Metody generowania kształtów falowych

Nowoczesne systemy używają neuronowych vocoderów — modeli uczenia głębokiego, które bezpośrednio generują próbki audio. Popularne architektury vocoder obejmują WaveNet, WaveGlow i HiFi-GAN.

Proces syntezy:

  1. Generowanie cech akustycznych: model akustyczny (często transformator) konwertuje fonemy i cele prozodyczne na mel-spektrogramy, które są wizualnymi reprezentacjami częstotliwości dźwięku w czasie
  2. Vocoder: neuronowy vocoder konwertuje melspektrogramy na surowe fale dźwiękowe (sekwencje wartości intensywności przy 16 000–48 000 próbek na sekundę)
  3. Przetwarzanie końcowe: system stosuje filtrowanie, normalizację lub efekty dźwiękowe w celu dopasowania do specyfikacji wyjściowych docelowych

Uwaga / Notatka

Co sprawia, że neuronowe wokodery są skuteczne?

  • Wysoka dokładność: Generowanie jakości dźwięku zbliżających się do nagrań studyjnych
  • Naturalność: Przechwyć subtelne cechy wokalne, takie jak oddech i jakość głosu
  • Wydajność: generowanie w czasie rzeczywistym na nowoczesnym sprzęcie (ważne dla aplikacji interaktywnych)
  • Elastyczność: dostosowywanie się do różnych osób mówiących, języków i stylów mówienia

Vocoder zasadniczo wykonuje odwrotność tego, co robi automatyczne rozpoznawanie mowy — podczas gdy rozpoznawanie mowy konwertuje dźwięk na tekst, vocoder konwertuje reprezentacje językowe na dźwięk.

Pełny potok przetwarzania w działaniu

Gdy poprosisz o syntezę mowy na spotkanie dr Chena o godzinie 15:00":

  1. Normalizacja tekstu rozszerza go do "Wizyta Doktora Chena jest na godzinę trzecią po południu"
  2. Analiza lingwistyczna konwertuje ją na fonemy: /ˈdɑktər ˈtʃɛnz əˈpɔɪntmənt ɪz æt θri əˈklɑk pi ɛm/
  3. Generowanie prozodii przewiduje, że tonacja leci nieco do góry na "spotkanie", pauza po "jest", i nacisk na "trzy".
  4. Synteza mowy generuje kształt fali audio pasujący do tych specyfikacji

Cały proces zazwyczaj kończy się w ciągu jednej sekundy na nowoczesnym sprzęcie.