概要

注释

有关更多详细信息，请参阅 “文本和图像 ”选项卡！

在本模块中，你了解了在 AI 应用程序中实现自然语音交互的基本语音技术。你了解了语音识别如何将口语转换为文本，以及语音合成如何从书面内容生成类似人类音频。

在本模块中，你发现：

语音方案和应用程序：语音技术可跨客户服务、辅助功能、对话 AI、医疗保健文档和电子学习转换用户体验。你探索了如何结合语音识别和合成来创建流畅的双向对话，这些对话感觉自然，并减少用户摩擦。
语音识别基础知识：你检查了将音频转换为文本的六阶段管道，从捕获声波到生成格式化听录。你了解了 MFCC 功能如何从音频中提取有意义的模式、基于转换器的声学模型如何预测音素，以及语言模型如何通过应用词汇和语法知识来解析歧义。
语音合成基础知识：你发现了将文本转换为自然语音的四个阶段过程，即文本规范化、语言分析、音素生成和音频合成。你探索了字素到音素的转换如何处理拼写变化、Transformer 模型如何预测自然节奏和强调，以及神经网络声码器如何生成高保真音频波形。

小窍门

有关详细信息，请参阅 Azure 中的语音入门。

反馈

此页面是否有帮助？