Czym jest usługa rozpoznawania mowy?

Usługa rozpoznawania mowy udostępnia funkcję zamiany mowy na tekst i tekst na mowę za pomocą zasobu usługi Mowa. Możesz transkrybować mowę na tekst z wysoką dokładnością, tworzyć naturalnie brzmiącą mowę syntetyczną, tłumaczyć mowę na żywo i prowadzić rozmowy na żywo z udziałem sztucznej inteligencji.

Obraz przedstawiający kafelki z wyróżnionymi niektórymi funkcjami usługi Mowa.

Twórz niestandardowe głosy, dodawaj określone słowa do podstawowego słownika lub twórz własne modele. Uruchamiaj usługę Mowa w dowolnym miejscu, w chmurze lub na urządzeniach brzegowych w kontenerach. Rozpoznawanie mowy umożliwia aplikacjom, narzędziom i urządzeniom korzystanie z interfejsu wiersza polecenia usługi Mowa, zestawu SDK usługi Mowa i interfejsów API REST.

Mowa jest dostępna dla wielu języków, regionów i punktów cenowych.

Scenariusze z zastosowaniem mowy

Typowe scenariusze dotyczące mowy obejmują:

Podpisy: dowiedz się, jak synchronizować podpisy z danymi wejściowymi audio, stosować filtry wulgaryzmów, uzyskiwać częściowe wyniki, stosować dostosowania i identyfikować języki mówione w scenariuszach wielojęzycznych.
Tworzenie zawartości audio: możesz używać neuronowych głosów do interakcji z czatbotami i agentami głosowymi bardziej naturalnymi i angażującymi, konwertując teksty cyfrowe, takie jak książki elektroniczne na audiobooki i ulepszać systemy nawigacji w samochodach.
Call Center: Transkrybuj wywołania w czasie rzeczywistym lub przetwarzaj partię połączeń, redaguj dane osobowe i wyodrębnij szczegółowe informacje, takie jak tonacja, aby pomóc w przypadku użycia centrum telefonicznego.
Uczenie językowe: udostępniaj opinie na temat oceny wymowy uczniom języka, obsługują transkrypcję w czasie rzeczywistym na potrzeby rozmów zdalnego uczenia się i czytają na głos materiały dydaktyczne z głosami neuronowymi.
Głos na żywo: twórz naturalne, ludzkie interfejsy, takie jak interfejsy konwersacyjne dla aplikacji i środowisk. Funkcja głosu na żywo zapewnia szybką, niezawodną interakcję między człowiekiem a implementacją agenta.

Firma Microsoft używa usługi Mowa w wielu scenariuszach, takich jak podpisy w aplikacji Teams, dyktowanie w usłudze Office 365 i Odczytywanie na głos w przeglądarce Microsoft Edge.

Obraz przedstawiający logo produktów firmy Microsoft, w których jest używana usługa mowa.

Możliwości mowy

Te sekcje zawierają podsumowanie funkcji mowy z linkami, aby uzyskać więcej informacji.

Zamiana mowy na tekst

Użyj zamiany mowy na tekst do konwersji dźwięku na tekst – poprzez transkrypcję w czasie rzeczywistym dla dźwięku przesyłanego strumieniowo, szybką transkrypcję dla wstępnie zarejestrowanych plików audio lub transkrypcję wsadową do asynchronicznego przetwarzania dużych ilości dźwięku.

Model podstawowy może nie być wystarczający, jeśli dźwięk zawiera hałas otoczenia lub zawiera wiele żargonów branżowych i specyficznych dla domeny. W takich przypadkach można tworzyć i trenować niestandardowe modele mowy przy użyciu danych akustycznych, językowych i wymowy. Niestandardowe modele mowy są prywatne i mogą oferować przewagę konkurencyjną.

Zamiana tekstu na mowę

Dzięki zamianie tekstu na mowę możesz przekonwertować tekst wejściowy na człowieka, na przykład syntetyzowany mowę. Używaj głosów neuronowych, które są głosami ludzkimi, takimi jak głosy obsługiwane przez głębokie sieci neuronowe. Użyj języka znaczników syntezy mowy (SSML), aby dostosować wysokość, wymowę, szybkość mówienia, głośność i nie tylko.

Standardowy głos: Wyjątkowo naturalne głosy gotowe do natychmiastowego użycia. Sprawdź standardowe próbki głosu w galerii głosów i określ odpowiedni głos dla Twoich potrzeb biznesowych.
Niestandardowy głos: oprócz standardowych głosów, które wychodzą z pudełka, możesz również utworzyć niestandardowy głos , który jest rozpoznawalny i unikatowy dla twojej marki lub produktu. Niestandardowe głosy są prywatne i mogą oferować przewagę konkurencyjną. Zapoznaj się z niestandardowymi przykładami głosów tutaj.

Tłumaczenie mowy

Tłumaczenie mowy umożliwia tłumaczenie mowy w czasie rzeczywistym, wielojęzyczne tłumaczenie mowy na aplikacje, narzędzia i urządzenia. Ta funkcja umożliwia zamianę mowy na mowę i mowę na tłumaczenie tekstu.

Mowa LLM (wersja zapoznawcza)

Funkcja LLM speech obsługuje obecnie następujące zadania dotyczące mowy:

transcribe: przekonwertuj wstępnie nagrany dźwięk na tekst.
translate: przekonwertuj wstępnie nagrany dźwięk na tekst w określonym języku docelowym.

Mowa korzystająca z wzbogaconego dużym modelem językowym LLM zapewnia lepszą jakość, głębokie zrozumienie kontekstowe, obsługę wielojęzyczną i możliwość dostrajania promptów. Udostępnia ona tę samą bardzo szybką wydajność wnioskowania co szybka transkrypcja, co czyni go idealnym rozwiązaniem w przypadku przypadków użycia, takich jak generowanie podpisów i napisów z plików audio, podsumowanie notatek ze spotkania, pomoc agentom centrum telefonicznego, transkrypcja poczty głosowej i nie tylko.

Identyfikacja języka

Identyfikacja języka służy do identyfikowania języków mówionych w dźwiękach w porównaniu z listą obsługiwanych języków. Użyj samej identyfikacji języka z rozpoznawaniem mowy do rozpoznawania tekstu lub tłumaczenia mowy.

Ocena wymowy

Ocena wymowy ocenia wymowę mowy i przekazuje głośnikom opinie na temat dokładności i biegłości dźwięku mówionego. Dzięki ocenie wymowy osoby uczące się języka mogą ćwiczyć, uzyskiwać natychmiastowe opinie i poprawiać swoją wymowę, tak aby potrafiły mówić i przekazywać informacje z pewnością siebie.

Dostarczanie i obecność

Funkcje usługi Azure Speech w narzędziach Foundry można wdrożyć w chmurze lub lokalnie.

Dzięki kontenerom możesz przybliżyć usługę do danych ze względów zgodności, zabezpieczeń lub innych powodów operacyjnych.

Wdrożenie usługi Mowa w suwerennych chmurach jest dostępne dla niektórych jednostek rządowych i ich partnerów. Na przykład chmura Azure Government jest dostępna dla jednostek rządowych USA i ich partnerów. Platforma Microsoft Azure obsługiwana przez chmurę 21Vianet jest dostępna dla organizacji z obecnością biznesową w Chinach. Aby uzyskać więcej informacji, zobacz suwerenne chmury.

Diagram przedstawiający miejsce wdrażania i uzyskiwania dostępu do usługi Mowa.

Używanie mowy w aplikacji

Usługa Speech Studio to zestaw narzędzi opartych na interfejsie użytkownika do tworzenia i integrowania funkcji z usługi Azure Speech w aplikacjach. Projekty można tworzyć w programie Speech Studio przy użyciu podejścia bez kodu, a następnie odwoływać się do tych zasobów w aplikacjach przy użyciu zestawu Speech SDK, interfejsu wiersza polecenia usługi Mowa lub interfejsów API REST.

Interfejs wiersza polecenia usługi Mowa to narzędzie wiersza polecenia do korzystania z usługi Mowa bez konieczności pisania kodu. Większość funkcji zestawu SDK usługi Mowa jest dostępnych w interfejsie wiersza polecenia usługi Mowa, a niektóre zaawansowane funkcje i dostosowania zostały uproszczone w interfejsie wiersza polecenia usługi Mowa.

Zestaw SPEECH SDK uwidacznia wiele funkcji usługi Mowa, których można użyć do tworzenia aplikacji z obsługą mowy. Zestaw SPEECH SDK jest dostępny w wielu językach programowania i na wszystkich platformach.

W niektórych przypadkach nie można używać zestawu SDK usługi Mowa lub nie należy ich używać. W takich przypadkach możesz użyć interfejsów API REST, aby uzyskać dostęp do usługi Mowa. Na przykład użyj interfejsów API REST do transkrypcji wsadowej.

Wprowadzenie

Oferujemy przewodniki Szybki start w wielu popularnych językach programowania. Każdy przewodnik Szybki start jest przeznaczony do uczenia podstawowych wzorców projektowania i uruchamiania kodu w czasie krótszym niż 10 minut. Zapoznaj się z następującą listą przewodników Szybki start dla każdej funkcji:

Przykłady kodu

Przykładowy kod usługi Mowa jest dostępny w witrynie GitHub. Te przykłady obejmują typowe scenariusze, takie jak odczytywanie dźwięku z pliku lub strumienia, ciągłe i jednosstrzałowe rozpoznawanie oraz praca z modelami niestandardowymi. Użyj tych linków, aby wyświetlić przykłady zestawu SDK i interfejsu REST:

Odpowiedzialne AI

System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko, w którym jest wdrażane. Zapoznaj się z uwagami dotyczącymi przejrzystości, aby dowiedzieć się więcej na temat odpowiedzialnego używania sztucznej inteligencji i wdrażania w systemach.

Udostępnij przez

Czym jest usługa rozpoznawania mowy?

Scenariusze z zastosowaniem mowy

Możliwości mowy

Zamiana mowy na tekst

Zamiana tekstu na mowę

Tłumaczenie mowy

Mowa LLM (wersja zapoznawcza)

Identyfikacja języka

Ocena wymowy

Dostarczanie i obecność

Używanie mowy w aplikacji

Wprowadzenie

Przykłady kodu

Odpowiedzialne AI

Zamiana mowy na tekst

Ocena wymowy

Głos niestandardowy

Następne kroki

Sprzężenie zwrotne

Dodatkowe źródła