Rozpocznij pracę z mową na platformie Azure

Zakończone

Platforma Microsoft Azure oferuje funkcje rozpoznawania mowy i syntezy za pośrednictwem usługi Azure Speech , która obsługuje wiele funkcji, w tym:

  • Zamiana mowy na tekst
  • Zamiana tekstu na mowę
  • Tłumaczenie mowy

Zamiana mowy na tekst

Interfejs API tłumaczenia tekstu za pomocą usługi Azure Speech umożliwia wykonywanie transkrypcji audio w czasie rzeczywistym lub wsadowym w formacie tekstowym. Źródłem audio transkrypcji może być strumień audio w czasie rzeczywistym z mikrofonu lub pliku audio.

Interfejs API zamiany mowy na tekst w usłudze Azure AI jest oparty na modelu uniwersalnym firmy Microsoft. Dane modelu są własnością firmy Microsoft i wdrażane na platformie Azure. Model jest zoptymalizowany pod kątem dwóch scenariuszy, konwersacji i dyktowania. Możesz również tworzyć i trenować własne modele niestandardowe, w tym akustyki, języka i wymowy, jeśli wstępnie utworzone modele firmy Microsoft nie zapewniają potrzebnych informacji.

Transkrypcja w czasie rzeczywistym: zamiana mowy w czasie rzeczywistym na tekst umożliwia transkrypcję strumieni audio do tekstu. Transkrypcja w czasie rzeczywistym umożliwia prezentacje, pokazy lub inny scenariusz, w którym mówi dana osoba.

Aby transkrypcja w czasie rzeczywistym działała, aplikacja musi nasłuchiwać przychodzącego dźwięku z mikrofonu lub innego źródła danych wejściowych audio, takich jak plik audio. Kod aplikacji przesyła strumieniowo dźwięk do usługi, co zwraca transkrypowany tekst.

Transkrypcja wsadowa: nie wszystkie scenariusze zamiany mowy na tekst są w czasie rzeczywistym. Nagrania audio mogą być przechowywane w udziale plików, serwerze zdalnym, a nawet w usłudze Azure Storage. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji.

Transkrypcja wsadowa powinna być uruchamiana w sposób asynchroniczny, ponieważ zadania wsadowe są zaplanowane na podstawie najlepszego nakładu pracy. Zwykle zadanie rozpoczyna wykonywanie w ciągu kilku minut od żądania, ale nie ma oszacowania, kiedy zadanie zmienia się w stan uruchomienia.

Zamiana tekstu na mowę

Interfejs API zamiany tekstu na mowę umożliwia konwertowanie danych wejściowych tekstu na mowę słyszalną, którą można odtwarzać bezpośrednio za pośrednictwem głośnika komputera lub zapisywać w pliku audio.

Głosy syntezy mowy: gdy używasz tekstu do interfejsu API mowy, możesz określić głos, który ma być używany do wokalizacji tekstu. Ta funkcja zapewnia elastyczność personalizacji rozwiązania syntezy mowy i nadania mu określonego znaku.

Usługa obejmuje wiele wstępnie zdefiniowanych głosów z obsługą wielu języków i wymowy regionalnej, w tym neuronowych głosów, które wykorzystują sieci neuronowe do przezwyciężenia typowych ograniczeń syntezy mowy w odniesieniu do intonacji, co powoduje bardziej naturalny głos brzmiący. Możesz również opracowywać niestandardowe głosy i używać ich za pomocą interfejsu API zamiany tekstu na mowę.

Tłumaczenie mowy

Tłumaczenie mowy platformy Azure to funkcja usługi Azure Speech. Tłumaczenie mowy platformy Azure umożliwia tłumaczenie języka mówionego w czasie rzeczywistym przez wprowadzanie danych wejściowych strumieni audio i zwracanie tekstu w określonym języku. Najpierw konwertując mowę na tekst przy użyciu automatycznego rozpoznawania mowy (ASR), a następnie tłumacząc rozpoznany tekst na co najmniej jeden język docelowy przy użyciu tłumaczenia maszynowego. Usługa obsługuje szeroką gamę języków źródłowych i docelowych i może dostarczać tłumaczenia jako tekst lub syntetyzowana mowa. Deweloperzy mogą zintegrować tę funkcję z aplikacjami przy użyciu interfejsów API REST lub zestawów SDK. Te aplikacje działają dobrze w scenariuszach, takich jak wielojęzyczne spotkania, transkrybowanie wydarzeń na żywo lub globalna obsługa klienta.