适用于 Azure MCP 服务器的 Azure AI 语音工具

使用 Azure MCP 服务器通过自然语言提示管理 Azure AI 语音功能，例如语音转文本（STT）和文本转语音（TTS）。

注释

工具参数：Azure MCP 服务器工具为完成任务所需的数据定义参数。其中一些参数特定于每个工具，如下所示。其他参数是全局参数，由所有工具共享。有关详细信息，请参阅工具参数。

语音转文本：识别

使用 Azure AI 服务语音从音频文件中识别语音。此命令使用音频文件，并使用高级语音识别功能将其转换为文本。支持的音频格式包括 WAV、MP3、OPUS/OGG、FLAC、ALAW、MULAW、MP4、M4A 和 AAC。压缩格式要求在系统上安装 GStreamer。

示例提示包括：

基本转换：“使用 Azure 语音服务终结点 https://myservice.cognitiveservices.azure.com/ 将音频文件 ./meeting-recording.wav 转换为文本”
使用语言检测：“使用具有语言检测的终结点 https://myservice.cognitiveservices.azure.com/ 识别文件 ./recording.mp3 中的语音”
使用不雅内容筛选：“从文件 ./interview.wav 使用已删除不雅选项的终结点 https://myservice.cognitiveservices.azure.com/ 转录语音”
指定终结点：“使用终结点https://myservice.cognitiveservices.azure.com/"将语音转换为文件 ./audio.wav中的文本;
西班牙语：“使用 es-ES 语言的终结点 https://myservice.cognitiveservices.azure.com/ 转录音频文件 ./session.wav”
详细输出：“使用具有详细输出格式的终结点 https://myservice.cognitiveservices.azure.com/ 将语音转换为文件 ./audio.wav 中的文本”
使用短语提示：“从文件 ./notes.wav 使用包含短语提示的终结点 https://myservice.cognitiveservices.azure.com/ ”Azure“识别语音，以提高准确性”
多个短语提示：“转录文件 ./meeting.wav 将终结点 https://myservice.cognitiveservices.azure.com/ 与短语提示配合使用：”Azure“、”认知服务“、”机器学习”
逗号分隔提示：“将语音转换为文件 ./ 中的文本 ./podcast.mp3 将终结点 https://myservice.cognitiveservices.azure.com/ 与短语提示配合使用：”Azure，认知服务， API“”
原始不雅内容输出：“使用终结点和不雅内容选项原始终结点 https://myservice.cognitiveservices.azure.com/ 从文件 ./audio.wav转录音频”

参数	必需还是可选	Description
终结点	必选	Azure AI 服务终结点 URL（例如 `https://your-service.cognitiveservices.azure.com/`）。
文件	必选	要识别的本地音频文件的路径。
语言	可选	语音识别的语言（例如 `en-US`， `es-ES`）。默认值为 `en-US`。
短语	可选	用于提高识别准确性的短语提示。可以多次指定，也可以指定为逗号分隔值。
格式	可选	输出格式： `simple` 或 `detailed`。
亵渎	可选	不雅内容筛选器： `masked`、 `removed`或 `raw`。默认值为 `masked`。

工具批注提示：

破坏性： ❌ |幂等： ✅ |开放世界： ❌ |只读： ✅ |机密： ❌ |本地必需： ✅

文本转语音：合成

使用 Azure AI 服务语音将文本转换为语音。此命令使用文本输入并使用高级神经文本转语音功能生成音频文件。

示例提示包括：

基本合成：“使用终结点 https://myservice.cognitiveservices.azure.com/ 将文本”Hello， welcome to Azure AI Services“转换为语音，并保存到output.wav”
使用自定义语音：“谢谢你使用我们的服务”将音频文件合成为音频文件，greeting.mp3 在服务“https://myservice.cognitiveservices.azure.com/”和终结点“guid-endpoint”下使用自定义语音 my-custom-voice。
不同语言：“为”双维尼多 Azure 生成西班牙语语音“，并保存到welcome-es.wav使用 es-ES 语言的语音终结点 https://myresource.cognitiveservices.azure.com/ ”

参数	必需还是可选	Description
终结点	必选	Azure AI 服务终结点 URL（例如 `https://your-service.cognitiveservices.azure.com/`）。
文字	必选	要转换为语音的文本。
输出文件路径	必选	将保存合成音频文件的路径。
语言	可选	语音识别的语言（例如 `en-US`， `es-ES`）。默认值为 `en-US`。
语音	可选	要用于语音合成（例如， `en-US-JennyNeural`）的语音。如果未指定，将使用语言的默认语音。
格式	可选	输出格式：`Riff24Khz16BitMonoPcm`、、`Audio16Khz32KBitRateMonoMp3Audio24Khz96KBitRateMonoMp3`、`Ogg16Khz16BitMonoOpusRaw16Khz16BitMonoPcm`。默认值为 `Riff24Khz16BitMonoPcm`。
终结点 ID	可选	用于语音合成的自定义语音模型的终结点 ID。

工具批注提示：

破坏性： ❌ |幂等： ✅ |开放世界： ❌ |只读： ❌ |机密： ❌ |本地必需： ✅

反馈

此页面是否有帮助？

Last updated on 2025-12-09

通过

适用于 Azure MCP 服务器的 Azure AI 语音工具

语音转文本：识别

文本转语音：合成

相关内容

反馈

其他资源