Azure MCP Server용 Azure AI Speech 도구 개요

Azure MCP Server를 사용하여 자연어 프롬프트를 사용하여 STT(음성 텍스트 변환) 및 TTS(텍스트 음성 변환)와 같은 Azure AI Speech 기능을 관리합니다.

비고

도구 매개 변수: Azure MCP Server 도구는 작업을 완료하는 데 필요한 데이터에 대한 매개 변수를 정의합니다. 이러한 매개 변수 중 일부는 각 도구와 관련이 있으며 아래에 설명되어 있습니다. 다른 매개 변수는 전역이며 모든 도구에서 공유됩니다. 자세한 내용은 도구 매개 변수를 참조하세요.

음성 텍스트 변환: 인식

Azure AI Services Speech를 사용하여 오디오 파일에서 음성을 인식합니다. 이 명령은 오디오 파일을 가져와서 고급 음성 인식 기능을 사용하여 텍스트로 변환합니다. 지원되는 오디오 형식에는 WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A 및 AAC가 포함됩니다. 압축된 형식을 사용하려면 GStreamer를 시스템에 설치해야 합니다.

예 프롬프트는 다음과 같습니다.

기본 변환: "Azure Speech Services에서 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 오디오 파일 ./meeting-recording.wav 텍스트로 변환"
언어 감지 사용: "언어 감지와 함께 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 파일에서 음성 인식 ./recording.mp3"
욕설 필터링 사용: "욕설 옵션이 제거된 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./interview.wav 파일에서 음성 전사"
엔드포인트 지정: "엔드 https://myservice.cognitiveservices.azure.com/" 포인트를 사용하여 ./audio.wav 파일에서 텍스트로 음성 변환;
스페인어: "es-ES 언어로 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 오디오 파일 ./session.wav 전사"
자세한 출력: "자세한 출력 형식의 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./audio.wav 파일에서 텍스트로 음성 변환"
구 힌트 사용: "더 나은 정확도를 위해 'Azure' 구 힌트와 함께 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./notes.wav 파일에서 음성 인식"
여러 구 힌트: "'Azure', 'Cognitive Services', '기계 학습'이라는 문구 힌트와 함께 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 파일 ./meeting.wav 기록"
쉼표로 구분된 힌트: "'Azure, Cognitive Services, API'라는 문구 힌트가 있는 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./podcast.mp3 파일에서 텍스트로 음성 변환"
원시 욕설 출력: "욕설 옵션이 원시인 엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 ./audio.wav 파일의 오디오 전사"

매개 변수	필수 또는 선택 사항	Description
엔드포인트	필수	Azure AI Services 엔드포인트 URL(예: `https://your-service.cognitiveservices.azure.com/`)입니다.
파일	필수	인식할 로컬 오디오 파일의 경로입니다.
Language	선택적	음성 인식 언어(예: `en-US`, `es-ES`)입니다. 기본값은 `en-US`입니다.
구문	선택적	인식 정확도를 향상시키기 위한 구 힌트입니다. 여러 번 또는 쉼표로 구분된 값으로 지정할 수 있습니다.
형식	선택적	출력 형식: `simple` 또는 `detailed`.
모독	선택적	욕설 필터: `masked`, `removed`또는 `raw`. 기본값은 `masked`입니다.

도구 주석 힌트:

텍스트 음성 변환: 합성

Azure AI Services Speech를 사용하여 텍스트를 음성으로 변환합니다. 이 명령은 텍스트 입력을 사용하고 고급 신경망 텍스트 음성 변환 기능을 사용하여 오디오 파일을 생성합니다.

예 프롬프트는 다음과 같습니다.

기본 합성: "엔드포인트 https://myservice.cognitiveservices.azure.com/ 를 사용하여 'Hello, Azure AI Services 시작' 텍스트를 음성으로 변환하고 output.wav 저장"
사용자 지정 음성 사용: "서비스 '' 및 엔드포인트 "guid-endpoint"에서 사용자 지정 음성 내 사용자 지정 음성을 사용하여 greeting.mp3 오디오 파일에 'https://myservice.cognitiveservices.azure.com/서비스를 사용해 주셔서 감사합니다'를 합성합니다.
다른 언어: "'Bienvenido a Azure'에 대한 스페인어 음성을 생성하고 es-ES 언어로 내 음성 엔드포인트 https://myresource.cognitiveservices.azure.com/ 를 사용하여 welcome-es.wav 저장"

매개 변수	필수 또는 선택 사항	Description
엔드포인트	필수	Azure AI Services 엔드포인트 URL(예: `https://your-service.cognitiveservices.azure.com/`)입니다.
Text	필수	음성으로 변환할 텍스트입니다.
출력 파일 경로	필수	합성된 오디오 파일이 저장되는 경로입니다.
Language	선택적	음성 인식 언어(예: `en-US`, `es-ES`)입니다. 기본값은 `en-US`입니다.
음성	선택적	음성 합성에 사용할 음성(예: `en-US-JennyNeural`)입니다. 지정하지 않으면 언어의 기본 음성이 사용됩니다.
형식	선택적	출력 형식: `Riff24Khz16BitMonoPcm`, `Audio16Khz32KBitRateMonoMp3`, `Audio24Khz96KBitRateMonoMp3`, `Ogg16Khz16BitMonoOpusRaw16Khz16BitMonoPcm`. 기본값은 `Riff24Khz16BitMonoPcm`입니다.
엔드포인트 ID	선택적	음성 합성을 위한 사용자 지정 음성 모델의 엔드포인트 ID입니다.

도구 주석 힌트:

피드백

이 페이지가 도움이 되었나요?

Last updated on 2025-12-09

다음을 통해 공유

Azure MCP Server용 Azure AI Speech 도구 개요

음성 텍스트 변환: 인식

텍스트 음성 변환: 합성

관련 콘텐츠

피드백

추가 리소스