使用 Azure MCP 服务器通过自然语言提示管理 Azure AI 语音功能,例如语音转文本(STT)和文本转语音(TTS)。
注释
工具参数:Azure MCP 服务器工具为完成任务所需的数据定义参数。 其中一些参数特定于每个工具,如下所示。 其他参数是全局参数,由所有工具共享。 有关详细信息,请参阅 工具参数。
语音转文本:识别
使用 Azure AI 服务语音从音频文件中识别语音。 此命令使用音频文件,并使用高级语音识别功能将其转换为文本。 支持的音频格式包括 WAV、MP3、OPUS/OGG、FLAC、ALAW、MULAW、MP4、M4A 和 AAC。 压缩格式要求在系统上安装 GStreamer。
示例提示包括:
- 基本转换:“使用 Azure 语音服务终结点 https://myservice.cognitiveservices.azure.com/ 将音频文件 ./meeting-recording.wav 转换为文本”
- 使用语言检测:“使用具有语言检测的终结点 https://myservice.cognitiveservices.azure.com/ 识别文件 ./recording.mp3 中的语音”
- 使用不雅内容筛选:“从文件 ./interview.wav 使用已删除不雅选项的终结点 https://myservice.cognitiveservices.azure.com/ 转录语音”
- 指定终结点:“使用终结点https://myservice.cognitiveservices.azure.com/"将语音转换为文件 ./audio.wav中的文本;
- 西班牙语:“使用 es-ES 语言的终结点 https://myservice.cognitiveservices.azure.com/ 转录音频文件 ./session.wav”
- 详细输出:“使用具有详细输出格式的终结点 https://myservice.cognitiveservices.azure.com/ 将语音转换为文件 ./audio.wav 中的文本”
- 使用短语提示:“从文件 ./notes.wav 使用包含短语提示的终结点 https://myservice.cognitiveservices.azure.com/ ”Azure“识别语音,以提高准确性”
- 多个短语提示:“转录文件 ./meeting.wav 将终结点 https://myservice.cognitiveservices.azure.com/ 与短语提示配合使用:”Azure“、”认知服务“、”机器学习”
- 逗号分隔提示:“将语音转换为文件 ./ 中的文本 ./podcast.mp3 将终结点 https://myservice.cognitiveservices.azure.com/ 与短语提示配合使用:”Azure, 认知服务, API“”
- 原始不雅内容输出:“使用终结点和不雅内容选项原始终结点 https://myservice.cognitiveservices.azure.com/ 从文件 ./audio.wav转录音频”
| 参数 | 必需还是可选 | Description |
|---|---|---|
| 终结点 | 必选 | Azure AI 服务终结点 URL(例如 https://your-service.cognitiveservices.azure.com/)。 |
| 文件 | 必选 | 要识别的本地音频文件的路径。 |
| 语言 | 可选 | 语音识别的语言(例如 en-US, es-ES)。 默认值为 en-US。 |
| 短语 | 可选 | 用于提高识别准确性的短语提示。 可以多次指定,也可以指定为逗号分隔值。 |
| 格式 | 可选 | 输出格式: simple 或 detailed。 |
| 亵渎 | 可选 | 不雅内容筛选器: masked、 removed或 raw。 默认值为 masked。 |
破坏性: ❌ |幂等: ✅ |开放世界: ❌ |只读: ✅ |机密: ❌ |本地必需: ✅
文本转语音:合成
使用 Azure AI 服务语音将文本转换为语音。 此命令使用文本输入并使用高级神经文本转语音功能生成音频文件。
示例提示包括:
- 基本合成:“使用终结点 https://myservice.cognitiveservices.azure.com/ 将文本”Hello, welcome to Azure AI Services“转换为语音,并保存到output.wav”
- 使用自定义语音:“谢谢你使用我们的服务”将音频文件合成为音频文件,greeting.mp3 在服务“https://myservice.cognitiveservices.azure.com/”和终结点“guid-endpoint”下使用自定义语音 my-custom-voice。
- 不同语言:“为”双维尼多 Azure 生成西班牙语语音“,并保存到welcome-es.wav使用 es-ES 语言的语音终结点 https://myresource.cognitiveservices.azure.com/ ”
| 参数 | 必需还是可选 | Description |
|---|---|---|
| 终结点 | 必选 | Azure AI 服务终结点 URL(例如 https://your-service.cognitiveservices.azure.com/)。 |
| 文字 | 必选 | 要转换为语音的文本。 |
| 输出文件路径 | 必选 | 将保存合成音频文件的路径。 |
| 语言 | 可选 | 语音识别的语言(例如 en-US, es-ES)。 默认值为 en-US。 |
| 语音 | 可选 | 要用于语音合成(例如, en-US-JennyNeural)的语音。 如果未指定,将使用语言的默认语音。 |
| 格式 | 可选 | 输出格式:Riff24Khz16BitMonoPcm、、Audio16Khz32KBitRateMonoMp3Audio24Khz96KBitRateMonoMp3、Ogg16Khz16BitMonoOpusRaw16Khz16BitMonoPcm。 默认值为 Riff24Khz16BitMonoPcm。 |
| 终结点 ID | 可选 | 用于语音合成的自定义语音模型的终结点 ID。 |
破坏性: ❌ |幂等: ✅ |开放世界: ❌ |只读: ❌ |机密: ❌ |本地必需: ✅