다음을 통해 공유


Azure MCP Server용 Azure AI Speech 도구 개요

Azure MCP Server를 사용하여 자연어 프롬프트를 사용하여 STT(음성 텍스트 변환) 및 TTS(텍스트 음성 변환)와 같은 Azure AI Speech 기능을 관리합니다.

비고

도구 매개 변수: Azure MCP Server 도구는 작업을 완료하는 데 필요한 데이터에 대한 매개 변수를 정의합니다. 이러한 매개 변수 중 일부는 각 도구와 관련이 있으며 아래에 설명되어 있습니다. 다른 매개 변수는 전역이며 모든 도구에서 공유됩니다. 자세한 내용은 도구 매개 변수를 참조하세요.

음성 텍스트 변환: 인식

Azure AI Services Speech를 사용하여 오디오 파일에서 음성을 인식합니다. 이 명령은 오디오 파일을 가져와서 고급 음성 인식 기능을 사용하여 텍스트로 변환합니다. 지원되는 오디오 형식에는 WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A 및 AAC가 포함됩니다. 압축된 형식을 사용하려면 GStreamer를 시스템에 설치해야 합니다.

예 프롬프트는 다음과 같습니다.

매개 변수 필수 또는 선택 사항 Description
엔드포인트 필수 Azure AI Services 엔드포인트 URL(예: https://your-service.cognitiveservices.azure.com/)입니다.
파일 필수 인식할 로컬 오디오 파일의 경로입니다.
Language 선택적 음성 인식 언어(예: en-US, es-ES)입니다. 기본값은 en-US입니다.
구문 선택적 인식 정확도를 향상시키기 위한 구 힌트입니다. 여러 번 또는 쉼표로 구분된 값으로 지정할 수 있습니다.
형식 선택적 출력 형식: simple 또는 detailed.
모독 선택적 욕설 필터: masked, removed또는 raw. 기본값은 masked입니다.

도구 주석 힌트:

파괴: ❌ | Idempotent: ✅ | 오픈 월드: ❌ | 읽기 전용: ✅ | 비밀: ❌ | 로컬 필수: ✅

텍스트 음성 변환: 합성

Azure AI Services Speech를 사용하여 텍스트를 음성으로 변환합니다. 이 명령은 텍스트 입력을 사용하고 고급 신경망 텍스트 음성 변환 기능을 사용하여 오디오 파일을 생성합니다.

예 프롬프트는 다음과 같습니다.

  • 기본 합성: "엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 'Hello, Azure AI Services 시작' 텍스트를 음성으로 변환하고 output.wav 저장"
  • 사용자 지정 음성 사용: "서비스 '' 및 엔드포인트 "guid-endpoint"에서 사용자 지정 음성 내 사용자 지정 음성을 사용하여 greeting.mp3 오디오 파일에 'https://myservice.cognitiveservices.azure.com/서비스를 사용해 주셔서 감사합니다'를 합성합니다.
  • 다른 언어: "'Bienvenido a Azure'에 대한 스페인어 음성을 생성하고 es-ES 언어로 내 음성 엔드포인트 https://myresource.cognitiveservices.azure.com/ 를 사용하여 welcome-es.wav 저장"
매개 변수 필수 또는 선택 사항 Description
엔드포인트 필수 Azure AI Services 엔드포인트 URL(예: https://your-service.cognitiveservices.azure.com/)입니다.
Text 필수 음성으로 변환할 텍스트입니다.
출력 파일 경로 필수 합성된 오디오 파일이 저장되는 경로입니다.
Language 선택적 음성 인식 언어(예: en-US, es-ES)입니다. 기본값은 en-US입니다.
음성 선택적 음성 합성에 사용할 음성(예: en-US-JennyNeural)입니다. 지정하지 않으면 언어의 기본 음성이 사용됩니다.
형식 선택적 출력 형식: Riff24Khz16BitMonoPcm, Audio16Khz32KBitRateMonoMp3, Audio24Khz96KBitRateMonoMp3, Ogg16Khz16BitMonoOpusRaw16Khz16BitMonoPcm. 기본값은 Riff24Khz16BitMonoPcm입니다.
엔드포인트 ID 선택적 음성 합성을 위한 사용자 지정 음성 모델의 엔드포인트 ID입니다.

도구 주석 힌트:

파괴: ❌ | Idempotent: ✅ | 오픈 월드: ❌ | 읽기 전용: ❌ | 비밀: ❌ | 로컬 필수: ✅