适用于 Azure MCP 服务器的 Azure AI 语音工具

使用 Azure MCP 服务器通过自然语言提示管理 Azure AI 语音功能,例如语音转文本(STT)和文本转语音(TTS)。

注释

工具参数:Azure MCP 服务器工具为完成任务所需的数据定义参数。 其中一些参数特定于每个工具,如下所示。 其他参数是全局参数,由所有工具共享。 有关详细信息,请参阅 工具参数

语音转文本:识别

使用 Azure AI 服务语音从音频文件中识别语音。 此命令使用音频文件,并使用高级语音识别功能将其转换为文本。 支持的音频格式包括 WAV、MP3、OPUS/OGG、FLAC、ALAW、MULAW、MP4、M4A 和 AAC。 压缩格式要求在系统上安装 GStreamer。

示例提示包括:

参数 必需还是可选 Description
终结点 必选 Azure AI 服务终结点 URL(例如 https://your-service.cognitiveservices.azure.com/)。
文件 必选 要识别的本地音频文件的路径。
语言 可选 语音识别的语言(例如 en-USes-ES)。 默认值为 en-US
短语 可选 用于提高识别准确性的短语提示。 可以多次指定,也可以指定为逗号分隔值。
格式 可选 输出格式: simpledetailed
亵渎 可选 不雅内容筛选器: maskedremovedraw。 默认值为 masked

工具批注提示

破坏性: ❌ |幂等: ✅ |开放世界: ❌ |只读: ✅ |机密: ❌ |本地必需: ✅

文本转语音:合成

使用 Azure AI 服务语音将文本转换为语音。 此命令使用文本输入并使用高级神经文本转语音功能生成音频文件。

示例提示包括:

  • 基本合成:“使用终结点 https://myservice.cognitiveservices.azure.com/ 将文本”Hello, welcome to Azure AI Services“转换为语音,并保存到output.wav”
  • 使用自定义语音:“谢谢你使用我们的服务”将音频文件合成为音频文件,greeting.mp3 在服务“https://myservice.cognitiveservices.azure.com/”和终结点“guid-endpoint”下使用自定义语音 my-custom-voice。
  • 不同语言:“为”双维尼多 Azure 生成西班牙语语音“,并保存到welcome-es.wav使用 es-ES 语言的语音终结点 https://myresource.cognitiveservices.azure.com/
参数 必需还是可选 Description
终结点 必选 Azure AI 服务终结点 URL(例如 https://your-service.cognitiveservices.azure.com/)。
文字 必选 要转换为语音的文本。
输出文件路径 必选 将保存合成音频文件的路径。
语言 可选 语音识别的语言(例如 en-USes-ES)。 默认值为 en-US
语音 可选 要用于语音合成(例如, en-US-JennyNeural)的语音。 如果未指定,将使用语言的默认语音。
格式 可选 输出格式:Riff24Khz16BitMonoPcm、、Audio16Khz32KBitRateMonoMp3Audio24Khz96KBitRateMonoMp3Ogg16Khz16BitMonoOpusRaw16Khz16BitMonoPcm。 默认值为 Riff24Khz16BitMonoPcm
终结点 ID 可选 用于语音合成的自定义语音模型的终结点 ID。

工具批注提示

破坏性: ❌ |幂等: ✅ |开放世界: ❌ |只读: ❌ |机密: ❌ |本地必需: ✅