你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Whisper 模型是 OpenAI 中的语音转文本模型,可用于转录或翻译音频文件。 该模型是在英语音频和文本的大型数据集上训练的。
- 该模型已针对包含英语语音的音频文件进行了优化。
- 该模型还可用于翻译包含其他语言语音的音频文件。 听录的输出是英语文本。
Whisper 模型通过 Microsoft Foundry 模型中的 Azure OpenAI 或通过 Foundry Tools 中的 Azure 语音来提供。 这些产品/服务的功能不相同。 在 Azure 语音(批量听录)中,Whisper 只是可用于语音转文本的几种模型之一。
你可能会问:
低语模型是否适合我的方案,还是 Azure 语音模型更好? 这两种类型的模型的 API 之间有怎样的差异?
如果想要使用 Whisper 模型,我应该通过 Azure OpenAI 或 Azure 语音使用它吗? 哪些方案可指导我使用其中某个方法?
低语模型或 Azure 语音模型
Whisper 模型或 Azure 语音模型都是合适的,这取决于你的使用场景。 如果决定使用 Azure 语音,可以从多个模型中进行选择,包括 Whisper 模型。 下表比较了推荐入门的选项。
| 场景 | Whisper 模型 | Azure 语音模型 |
|---|---|---|
| 音频和视频的实时听录、描述文字和字幕。 | 不可用 | 建议 |
| 预先录制的音频和视频的听录、描述文字和字幕。 | 建议通过 Azure OpenAI 使用 Whisper 模型来快速处理单个音频文件。 建议使用Azure 语音(批量听录)中的Whisper模型进行大型文件的批量处理。 有关详细信息,请参阅通过 Azure 语音批量听录还是通过 Azure OpenAI 来使用 Whisper 模型? | 建议用于批处理大型文件、分割和字级时间戳。 |
| 电话录音的脚本和分析,例如通话摘要、情绪、关键主题和自定义见解。 | 可用 | 建议 |
| 实时听录和分析,帮助呼叫中心代理解决客户问题。 | 不可用 | 建议 |
| 会议录制的脚本和分析,例如会议摘要、会议章节划分和操作项提取。 | 可用 | 建议 |
| 通过语音听写进行实时文本输入和文档生成。 | 不可用 | 建议 |
| 联系中心语音代理:在呼叫中心实现呼叫路由和交互式语音响应。 | 可用 | 建议 |
| 语音助手:适用于机顶盒、移动应用、车载设备和其他方案的应用程序特定的语音助理。 | 可用 | 建议 |
| 发音评估:评估说话人语音的发音。 | 不可用 | 建议 |
| 将实时语音从一种语言翻译成另一种语言。 | 不可用 | 建议使用 语音翻译 API。 |
| 将预录制的音频从其他语言翻译为英语。 | 建议 | 还可以通过 语音翻译 API 使用。 |
| 将预录制的音频翻译为英语以外的语言。 | 不可用 | 建议使用 语音翻译 API。 |
通过 Azure 语音还是 Azure OpenAI 来使用 Whisper 模型?
如果决定使用 Whisper 模型,你有两个选项。 可以选择是通过 Azure OpenAI 还是 Azure 语音(批量听录)使用 Whisper 模型。 在任一情况下,听录文本的可读性都是相同的。
通过 Azure OpenAI 使用 Whisper 模型可能最适合以下场景:
- 逐个快速转录音频文件。
- 将其他语言的音频翻译为英语。 可以输入混合语言的音频,输出为英语。
- 向模型提供指导输出的提示。
- 支持的文件格式:mp3、mp4、mpweg、mpga、m4a、wav 和 webm。
- 文件名仅支持 ASCII 字符。
通过 Azure 语音批处理听录的低语模型可能最适合:
- 听录大于 25MB 的文件(最大 1GB)。 Azure OpenAI Whisper 模型的文件大小限制为 25 MB。
- 听录大批音频文件
- 分割,以区分参与对话的不同说话人。 语音服务提供有关哪个说话人正在说出转录语音的特定部分的信息。 通过 Azure OpenAI 的 Whisper 模型不支持分割。
- 字级时间戳
- 支持的文件格式:mp3、wav、ogg。
区域支持是另一个考虑因素。
- 有关 Whisper 模型可用的区域的当前列表,请参阅 语音服务区域表。