总结
在本模块中,你了解了语音技术的两个关键方面:语音识别和合成。 语音识别涉及使用声学模型和语言模型将口语字词转换为数据(通常转录为文本)。 该文本可用于各种目的,如隐藏式字幕、脚本、自动笔记听写和用户输入处理。 另一方面,语音合成是关于数据发声的,通常通过将文本转换为语音的方式进行。 合成语音可用于生成口头响应、创建语音菜单、大声朗读电子邮件或文本,以及广播公告。 你还了解了 Microsoft Azure 的 AI 语音服务,该服务通过语音转文本 API 和文本转语音 API 等功能提供语音识别和合成功能。
本模块的主要要点是 Azure 语音服务的功能。 语音转文本 API 允许使用一个基于 Microsoft 训练的通用语言模型的模型将音频实时或批量转录为文本。 它可用于演示期间的实时转录,或用于存储的音频文件的批量转录。 文本转语音 API 将文本输入转换为可听到的语音,可以使用不同的语音、语言和区域发音进行自定义。
可以在 服务文档中了解有关 Azure 语音的详细信息。