你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是 Whisper 模型?

Whisper 模型是 OpenAI 中的语音转文本模型,可用于转录或翻译音频文件。 该模型是在英语音频和文本的大型数据集上训练的。

  • 该模型已针对包含英语语音的音频文件进行了优化。
  • 该模型还可用于翻译包含其他语言语音的音频文件。 听录的输出是英语文本。

Whisper 模型通过 Microsoft Foundry 模型中的 Azure OpenAI 或通过 Foundry Tools 中的 Azure 语音来提供。 这些产品/服务的功能不相同。 在 Azure 语音(批量听录)中,Whisper 只是可用于语音转文本的几种模型之一。

你可能会问:

  • 低语模型是否适合我的方案,还是 Azure 语音模型更好? 这两种类型的模型的 API 之间有怎样的差异?

  • 如果想要使用 Whisper 模型,我应该通过 Azure OpenAI 或 Azure 语音使用它吗? 哪些方案可指导我使用其中某个方法?

低语模型或 Azure 语音模型

Whisper 模型或 Azure 语音模型都是合适的,这取决于你的使用场景。 如果决定使用 Azure 语音,可以从多个模型中进行选择,包括 Whisper 模型。 下表比较了推荐入门的选项。

场景 Whisper 模型 Azure 语音模型
音频和视频的实时听录、描述文字和字幕。 不可用 建议
预先录制的音频和视频的听录、描述文字和字幕。 建议通过 Azure OpenAI 使用 Whisper 模型来快速处理单个音频文件。 建议使用Azure 语音(批量听录)中的Whisper模型进行大型文件的批量处理。 有关详细信息,请参阅通过 Azure 语音批量听录还是通过 Azure OpenAI 来使用 Whisper 模型? 建议用于批处理大型文件、分割和字级时间戳。
电话录音的脚本和分析,例如通话摘要、情绪、关键主题和自定义见解。 可用 建议
实时听录和分析,帮助呼叫中心代理解决客户问题。 不可用 建议
会议录制的脚本和分析,例如会议摘要、会议章节划分和操作项提取。 可用 建议
通过语音听写进行实时文本输入和文档生成。 不可用 建议
联系中心语音代理:在呼叫中心实现呼叫路由和交互式语音响应。 可用 建议
语音助手:适用于机顶盒、移动应用、车载设备和其他方案的应用程序特定的语音助理。 可用 建议
发音评估:评估说话人语音的发音。 不可用 建议
将实时语音从一种语言翻译成另一种语言。 不可用 建议使用 语音翻译 API
将预录制的音频从其他语言翻译为英语。 建议 还可以通过 语音翻译 API 使用。
将预录制的音频翻译为英语以外的语言。 不可用 建议使用 语音翻译 API

通过 Azure 语音还是 Azure OpenAI 来使用 Whisper 模型?

如果决定使用 Whisper 模型,你有两个选项。 可以选择是通过 Azure OpenAI 还是 Azure 语音(批量听录)使用 Whisper 模型。 在任一情况下,听录文本的可读性都是相同的。

通过 Azure OpenAI 使用 Whisper 模型可能最适合以下场景:

  • 逐个快速转录音频文件。
  • 将其他语言的音频翻译为英语。 可以输入混合语言的音频,输出为英语。
  • 向模型提供指导输出的提示。
  • 支持的文件格式:mp3、mp4、mpweg、mpga、m4a、wav 和 webm。
  • 文件名仅支持 ASCII 字符。

通过 Azure 语音批处理听录的低语模型可能最适合:

  • 听录大于 25MB 的文件(最大 1GB)。 Azure OpenAI Whisper 模型的文件大小限制为 25 MB。
  • 听录大批音频文件
  • 分割,以区分参与对话的不同说话人。 语音服务提供有关哪个说话人正在说出转录语音的特定部分的信息。 通过 Azure OpenAI 的 Whisper 模型不支持分割。
  • 字级时间戳
  • 支持的文件格式:mp3、wav、ogg。

区域支持是另一个考虑因素。