Azure 上的语音入门

3 分钟

Microsoft Azure 通过 Azure 语音 服务提供语音识别和合成功能，该服务支持许多功能，包括：

语音转文本
文本转语音
语音翻译

语音转文本

可以使用 Azure 语音转文本 API 将音频实时或批量听录转换为文本格式。用于听录的音频源可以是来自麦克风或音频文件的实时音频流。

Azure AI 的语音转文本 API 基于Microsoft的通用语言模型。模型的数据Microsoft拥有并部署到 Azure。该模型针对两种场景进行了优化：对话和听写。如果来自Microsoft的预生成模型不提供所需的内容，还可以创建和训练自己的自定义模型，包括声学、语言和发音。

实时听录：实时语音转文本允许将音频流转录为文本。你可将实时听录用于展示、演示或任何其他有人讲话的场景。

为使实时听录发挥作用，应用程序需要侦听来自麦克风或其他音频输入源（例如音频文件）的传入音频。应用程序代码将音频流式传输到该服务，后者再返回已听录的文本。

批量听录：并非所有语音转文本方案都是实时的。可将录音存储于文件共享、远程服务器甚至 Azure 存储上。你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。

批量听录应以异步方式运行，因为批处理作业是按尽力而为的要求来计划的。通常，作业将在请求后的几分钟内开始执行，但是无法估计作业进入运行状态的时间。

文本到语音转换

文本转语音 API 可将文本输入转换为音频语音，该语音可通过计算机扬声器直接播放或写入音频文件。

语音合成声音：使用文本转语音 API 时，可指定用于文本发声的语音。此功能提供了个性化语音合成解决方案灵活性，并赋予其特定角色。

该服务包括支持多种语言和区域发音的多个预定义语音，包括利用神经网络克服语音合成中关于语调的常见限制的神经语音，从而产生更自然的声音。还可以开发自定义语音，并将其与文本到语音 API 一起使用。

语音翻译

Azure 语音翻译是 Azure 语音服务的一项功能。 Azure 语音翻译通过获取音频流的输入和以指定语言返回文本来实时翻译口语。它的工作原理是先使用自动语音识别（ASR）将语音转换为文本，然后使用机器翻译将识别的文本翻译成一个或多个目标语言。该服务支持各种源和目标语言，并且可以以文本或合成语音的形式提供翻译。开发人员可以使用 REST API 或 SDK 将此功能集成到应用程序中。这些应用程序适用于多语言会议、实时事件字幕或全球客户支持等方案。

反馈

此页面是否有帮助？