Azure MCP Server를 사용하여 자연어 프롬프트를 사용하여 STT(음성 텍스트 변환) 및 TTS(텍스트 음성 변환)와 같은 Azure AI Speech 기능을 관리합니다.
비고
도구 매개 변수: Azure MCP Server 도구는 작업을 완료하는 데 필요한 데이터에 대한 매개 변수를 정의합니다. 이러한 매개 변수 중 일부는 각 도구와 관련이 있으며 아래에 설명되어 있습니다. 다른 매개 변수는 전역이며 모든 도구에서 공유됩니다. 자세한 내용은 도구 매개 변수를 참조하세요.
음성 텍스트 변환: 인식
Azure AI Services Speech를 사용하여 오디오 파일에서 음성을 인식합니다. 이 명령은 오디오 파일을 가져와서 고급 음성 인식 기능을 사용하여 텍스트로 변환합니다. 지원되는 오디오 형식에는 WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A 및 AAC가 포함됩니다. 압축된 형식을 사용하려면 GStreamer를 시스템에 설치해야 합니다.
예 프롬프트는 다음과 같습니다.
- 기본 변환: "Azure Speech Services에서 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 오디오 파일 ./meeting-recording.wav 텍스트로 변환"
- 언어 감지 사용: "언어 감지와 함께 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 파일에서 음성 인식 ./recording.mp3"
- 욕설 필터링 사용: "욕설 옵션이 제거된 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./interview.wav 파일에서 음성 전사"
- 엔드포인트 지정: "엔드 https://myservice.cognitiveservices.azure.com/" 포인트를 사용하여 ./audio.wav 파일에서 텍스트로 음성 변환;
- 스페인어: "es-ES 언어로 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 오디오 파일 ./session.wav 전사"
- 자세한 출력: "자세한 출력 형식의 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./audio.wav 파일에서 텍스트로 음성 변환"
- 구 힌트 사용: "더 나은 정확도를 위해 'Azure' 구 힌트와 함께 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./notes.wav 파일에서 음성 인식"
- 여러 구 힌트: "'Azure', 'Cognitive Services', '기계 학습'이라는 문구 힌트와 함께 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 파일 ./meeting.wav 기록"
- 쉼표로 구분된 힌트: "'Azure, Cognitive Services, API'라는 문구 힌트가 있는 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./podcast.mp3 파일에서 텍스트로 음성 변환"
- 원시 욕설 출력: "욕설 옵션이 원시인 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./audio.wav 파일의 오디오 전사"
| 매개 변수 | 필수 또는 선택 사항 | Description |
|---|---|---|
| 엔드포인트 | 필수 | Azure AI Services 엔드포인트 URL(예: https://your-service.cognitiveservices.azure.com/)입니다. |
| 파일 | 필수 | 인식할 로컬 오디오 파일의 경로입니다. |
| Language | 선택적 | 음성 인식 언어(예: en-US, es-ES)입니다. 기본값은 en-US입니다. |
| 구문 | 선택적 | 인식 정확도를 향상시키기 위한 구 힌트입니다. 여러 번 또는 쉼표로 구분된 값으로 지정할 수 있습니다. |
| 형식 | 선택적 | 출력 형식: simple 또는 detailed. |
| 모독 | 선택적 | 욕설 필터: masked, removed또는 raw. 기본값은 masked입니다. |
파괴: ❌ | Idempotent: ✅ | 오픈 월드: ❌ | 읽기 전용: ✅ | 비밀: ❌ | 로컬 필수: ✅
텍스트 음성 변환: 합성
Azure AI Services Speech를 사용하여 텍스트를 음성으로 변환합니다. 이 명령은 텍스트 입력을 사용하고 고급 신경망 텍스트 음성 변환 기능을 사용하여 오디오 파일을 생성합니다.
예 프롬프트는 다음과 같습니다.
- 기본 합성: "엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 'Hello, Azure AI Services 시작' 텍스트를 음성으로 변환하고 output.wav 저장"
- 사용자 지정 음성 사용: "서비스 '' 및 엔드포인트 "guid-endpoint"에서 사용자 지정 음성 내 사용자 지정 음성을 사용하여 greeting.mp3 오디오 파일에 'https://myservice.cognitiveservices.azure.com/서비스를 사용해 주셔서 감사합니다'를 합성합니다.
- 다른 언어: "'Bienvenido a Azure'에 대한 스페인어 음성을 생성하고 es-ES 언어로 내 음성 엔드포인트 https://myresource.cognitiveservices.azure.com/ 를 사용하여 welcome-es.wav 저장"
| 매개 변수 | 필수 또는 선택 사항 | Description |
|---|---|---|
| 엔드포인트 | 필수 | Azure AI Services 엔드포인트 URL(예: https://your-service.cognitiveservices.azure.com/)입니다. |
| Text | 필수 | 음성으로 변환할 텍스트입니다. |
| 출력 파일 경로 | 필수 | 합성된 오디오 파일이 저장되는 경로입니다. |
| Language | 선택적 | 음성 인식 언어(예: en-US, es-ES)입니다. 기본값은 en-US입니다. |
| 음성 | 선택적 | 음성 합성에 사용할 음성(예: en-US-JennyNeural)입니다. 지정하지 않으면 언어의 기본 음성이 사용됩니다. |
| 형식 | 선택적 | 출력 형식: Riff24Khz16BitMonoPcm, Audio16Khz32KBitRateMonoMp3, Audio24Khz96KBitRateMonoMp3, Ogg16Khz16BitMonoOpusRaw16Khz16BitMonoPcm. 기본값은 Riff24Khz16BitMonoPcm입니다. |
| 엔드포인트 ID | 선택적 | 음성 합성을 위한 사용자 지정 음성 모델의 엔드포인트 ID입니다. |
파괴: ❌ | Idempotent: ✅ | 오픈 월드: ❌ | 읽기 전용: ❌ | 비밀: ❌ | 로컬 필수: ✅