总结

1 分钟

在本模块中，你了解了语音技术的两个关键方面：语音识别和合成。语音识别涉及使用声学模型和语言模型将口语字词转换为数据（通常转录为文本）。该文本可用于各种目的，如隐藏式字幕、脚本、自动笔记听写和用户输入处理。另一方面，语音合成是关于数据发声的，通常通过将文本转换为语音的方式进行。合成语音可用于生成口头响应、创建语音菜单、大声朗读电子邮件或文本，以及广播公告。你还了解了 Microsoft Azure 的 AI 语音服务，该服务通过语音转文本 API 和文本转语音 API 等功能提供语音识别和合成功能。

本模块的主要要点是 Azure 语音服务的功能。语音转文本 API 允许使用一个基于 Microsoft 训练的通用语言模型的模型将音频实时或批量转录为文本。它可用于演示期间的实时转录，或用于存储的音频文件的批量转录。文本转语音 API 将文本输入转换为可听到的语音，可以使用不同的语音、语言和区域发音进行自定义。

可以在服务文档中了解有关 Azure 语音的详细信息。

反馈

此页面是否有帮助？