Rozpocznij pracę z mową na platformie Azure
Platforma Microsoft Azure oferuje funkcje rozpoznawania mowy i syntezy za pośrednictwem usługi Azure Speech , która obsługuje wiele funkcji, w tym:
- Zamiana mowy na tekst
- Zamiana tekstu na mowę
- Tłumaczenie mowy
Zamiana mowy na tekst
Interfejs API tłumaczenia tekstu za pomocą usługi Azure Speech umożliwia wykonywanie transkrypcji audio w czasie rzeczywistym lub wsadowym w formacie tekstowym. Źródłem audio transkrypcji może być strumień audio w czasie rzeczywistym z mikrofonu lub pliku audio.
Interfejs API zamiany mowy na tekst w usłudze Azure AI jest oparty na modelu uniwersalnym firmy Microsoft. Dane modelu są własnością firmy Microsoft i wdrażane na platformie Azure. Model jest zoptymalizowany pod kątem dwóch scenariuszy, konwersacji i dyktowania. Możesz również tworzyć i trenować własne modele niestandardowe, w tym akustyki, języka i wymowy, jeśli wstępnie utworzone modele firmy Microsoft nie zapewniają potrzebnych informacji.
Transkrypcja w czasie rzeczywistym: zamiana mowy w czasie rzeczywistym na tekst umożliwia transkrypcję strumieni audio do tekstu. Transkrypcja w czasie rzeczywistym umożliwia prezentacje, pokazy lub inny scenariusz, w którym mówi dana osoba.
Aby transkrypcja w czasie rzeczywistym działała, aplikacja musi nasłuchiwać przychodzącego dźwięku z mikrofonu lub innego źródła danych wejściowych audio, takich jak plik audio. Kod aplikacji przesyła strumieniowo dźwięk do usługi, co zwraca transkrypowany tekst.
Transkrypcja wsadowa: nie wszystkie scenariusze zamiany mowy na tekst są w czasie rzeczywistym. Nagrania audio mogą być przechowywane w udziale plików, serwerze zdalnym, a nawet w usłudze Azure Storage. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji.
Transkrypcja wsadowa powinna być uruchamiana w sposób asynchroniczny, ponieważ zadania wsadowe są zaplanowane na podstawie najlepszego nakładu pracy. Zwykle zadanie rozpoczyna wykonywanie w ciągu kilku minut od żądania, ale nie ma oszacowania, kiedy zadanie zmienia się w stan uruchomienia.
Zamiana tekstu na mowę
Interfejs API zamiany tekstu na mowę umożliwia konwertowanie danych wejściowych tekstu na mowę słyszalną, którą można odtwarzać bezpośrednio za pośrednictwem głośnika komputera lub zapisywać w pliku audio.
Głosy syntezy mowy: gdy używasz tekstu do interfejsu API mowy, możesz określić głos, który ma być używany do wokalizacji tekstu. Ta funkcja zapewnia elastyczność personalizacji rozwiązania syntezy mowy i nadania mu określonego znaku.
Usługa obejmuje wiele wstępnie zdefiniowanych głosów z obsługą wielu języków i wymowy regionalnej, w tym neuronowych głosów, które wykorzystują sieci neuronowe do przezwyciężenia typowych ograniczeń syntezy mowy w odniesieniu do intonacji, co powoduje bardziej naturalny głos brzmiący. Możesz również opracowywać niestandardowe głosy i używać ich za pomocą interfejsu API zamiany tekstu na mowę.
Tłumaczenie mowy
Tłumaczenie mowy platformy Azure to funkcja usługi Azure Speech. Tłumaczenie mowy platformy Azure umożliwia tłumaczenie języka mówionego w czasie rzeczywistym przez wprowadzanie danych wejściowych strumieni audio i zwracanie tekstu w określonym języku. Najpierw konwertując mowę na tekst przy użyciu automatycznego rozpoznawania mowy (ASR), a następnie tłumacząc rozpoznany tekst na co najmniej jeden język docelowy przy użyciu tłumaczenia maszynowego. Usługa obsługuje szeroką gamę języków źródłowych i docelowych i może dostarczać tłumaczenia jako tekst lub syntetyzowana mowa. Deweloperzy mogą zintegrować tę funkcję z aplikacjami przy użyciu interfejsów API REST lub zestawów SDK. Te aplikacje działają dobrze w scenariuszach, takich jak wielojęzyczne spotkania, transkrybowanie wydarzeń na żywo lub globalna obsługa klienta.