概要

已完成

注释

有关更多详细信息,请参阅 “文本和图像 ”选项卡!

在本模块中,你了解了在 AI 应用程序中实现自然语音交互的基本语音技术。 你了解了语音识别如何将口语转换为文本,以及语音合成如何从书面内容生成类似人类音频。

在本模块中,你发现:

  • 语音方案和应用程序:语音技术可跨客户服务、辅助功能、对话 AI、医疗保健文档和电子学习转换用户体验。 你探索了如何结合语音识别和合成来创建流畅的双向对话,这些对话感觉自然,并减少用户摩擦。

  • 语音识别基础知识:你检查了将音频转换为文本的六阶段管道,从捕获声波到生成格式化听录。 你了解了 MFCC 功能如何从音频中提取有意义的模式、基于转换器的声学模型如何预测音素,以及语言模型如何通过应用词汇和语法知识来解析歧义。

  • 语音合成基础知识:你发现了将文本转换为自然语音的四个阶段过程,即文本规范化、语言分析、音素生成和音频合成。 你探索了字素到音素的转换如何处理拼写变化、Transformer 模型如何预测自然节奏和强调,以及神经网络声码器如何生成高保真音频波形。

小窍门

有关详细信息,请参阅 Azure 中的语音入门