Użyj API zamiany mowy na tekst Azure

Ukończone

Usługa Azure Speech obsługuje rozpoznawanie mowy za pomocą następujących funkcji:

  • Transkrypcja w czasie rzeczywistym: natychmiastowa transkrypcja z wynikami pośrednimi dla wejściowych danych audio na żywo.
  • Szybka transkrypcja: najszybsze synchroniczne dane wyjściowe w sytuacjach z przewidywalnym opóźnieniem.
  • Transkrypcja wsadowa: wydajne przetwarzanie dużych ilości wstępnie rozpoznanego dźwięku.
  • Mowa niestandardowa: modele o zwiększonej dokładności dla określonych domen i warunków.

Korzystanie z zestawu Azure Speech SDK

Szczegóły różnią się w zależności od używanego zestawu SDK (Python, C#itd.); Istnieje spójny wzorzec używania interfejsu API zamiany mowy na tekst :

Diagram przedstawiający sposób tworzenia obiektu SpeechRecognizer na podstawie obiektów SpeechConfig i AudioConfig, a jej metoda RecognizeOnceAsync służy do wywoływania interfejsu API rozpoznawania mowy.

  1. Użyj obiektu SpeechConfig , aby hermetyzować informacje wymagane do nawiązania połączenia z zasobem usługi Azure Speech. W szczególności jego lokalizacja i klucz.
  2. Opcjonalnie użyj AudioConfig, aby zdefiniować źródło wejściowe dla dźwięku do transkrypcji. Domyślnie jest to domyślny mikrofon systemowy, ale można również określić plik dźwiękowy.
  3. Użyj obiektów SpeechConfig i AudioConfig , aby utworzyć obiekt SpeechRecognizer . Ten obiekt działa jako klient proxy dla API zamiany mowy na tekst.
  4. Użyj metod obiektu SpeechRecognizer , aby wywołać podstawowe funkcje interfejsu API. Na przykład metoda RecognizeOnceAsync() używa usługi Azure Speech do asynchronicznego transkrypcji pojedynczej wypowiedzi mówionej.
  5. Przetwarzanie odpowiedzi z usługi Azure Speech. W przypadku metody RecognizeOnceAsync() wynik jest obiektem SpeechRecognitionResult zawierającym następujące właściwości:
    • Czas trwania
    • OffsetInTicks
    • Właściwości
    • Powód
    • IdentyfikatorWyniku
    • Tekst

Jeśli operacja zakończyła się pomyślnie, właściwość Reason ma wyliczoną wartość RecognizedSpeech, a właściwość Text zawiera transkrypcję. Inne możliwe wartości dla Result obejmują NoMatch (wskazując, że dźwięk został pomyślnie przeanalizowany, ale mowa nie została rozpoznana) lub Canceled, co oznacza, że wystąpił błąd (w takim przypadku można sprawdzić kolekcję Properties dla właściwości CancellationReason, aby ustalić, co poszło nie tak).