Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Utilisez le serveur Azure MCP pour gérer les fonctionnalités d’Azure AI Speech, telles que la reconnaissance vocale (STT) et la synthèse vocale (TTS) avec des invites en langage naturel.
Note
Paramètres de l’outil : les outils Azure MCP Server définissent des paramètres pour les données dont ils ont besoin pour effectuer des tâches. Certains de ces paramètres sont spécifiques à chaque outil et sont documentés ci-dessous. D’autres paramètres sont globaux et partagés par tous les outils. Pour plus d’informations, consultez Paramètres de l’outil.
Reconnaissance vocale : Reconnaître
Reconnaître la voix à partir d’un fichier audio à l’aide d’Azure AI Services Speech. Cette commande prend un fichier audio et le convertit en texte à l’aide de fonctionnalités avancées de reconnaissance vocale. Les formats audio pris en charge incluent WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A et AAC. Les formats compressés nécessitent l’installation de GStreamer sur le système.
Voici quelques exemples d’invites :
- Conversion de base : « Convertir le fichier audio ./meeting-recording.wav en texte à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec Azure Speech Services »
- Avec la détection de langue : « Reconnaître la voix à partir du fichier ./recording.mp3 à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec détection de langue »
- Avec le filtrage de la profanité : « Transcrire la voix du fichier ./interview.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec l’option de profanité supprimée »
- Spécifier le point de terminaison : « Convertir la reconnaissance vocale en texte à partir du fichier ./audio.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/"
- Langue espagnole : « Transcrire le fichier audio ./session.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ dans es-ES langue »
- Sortie détaillée : « Convertir la reconnaissance vocale en texte à partir du fichier ./audio.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec un format de sortie détaillé »
- Avec des indicateurs d’expression : « Reconnaître la voix à partir du fichier ./notes.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec des indicateurs d’expression « Azure » pour une meilleure précision »
- Indicateurs d’expressions multiples : « Transcrire le fichier ./meeting.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec des indicateurs d’expression : « Azure », « cognitive services », « Machine Learning »
- Indicateurs séparés par des virgules : « Convertir la parole en texte à partir du fichier ./podcast.mp3 à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec des indicateurs d’expression : « Azure, cognitive services, API »
- Sortie de profanité brute : « Transcrire l’audio à partir du fichier ./audio.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec l’option de profanity raw »
| Paramètre | Obligatoire ou facultatif | Descriptif |
|---|---|---|
| Point de terminaison | Obligatoire | URL du point de terminaison Azure AI Services (par exemple, https://your-service.cognitiveservices.azure.com/). |
| File | Obligatoire | Chemin d’accès au fichier audio local à reconnaître. |
| Language | Optional | Langue de la reconnaissance vocale (par exemple, en-US, es-ES). La valeur par défaut est en-US. |
| Expressions | Optional | Indicateurs d’expression pour améliorer la précision de la reconnaissance. Peut être spécifié plusieurs fois ou sous forme de valeurs séparées par des virgules. |
| Mettre en forme | Optional | Format de sortie : simple ou detailed. |
| Impiété | Optional | Filtre de profanité : masked, removedou raw. La valeur par défaut est masked. |
Indicateurs d’annotation d’outil :
Destructeur : ❌ | Idempotent : ✅ | Open World : ❌ | Lecture seule : ✅ | Secret : ❌ | Local requis : ✅
Synthèse vocale : synthétiser
Convertissez du texte en synthèse vocale à l’aide d’Azure AI Services Speech. Cette commande prend l’entrée de texte et génère un fichier audio à l’aide de fonctionnalités de synthèse vocale neuronale avancées.
Voici quelques exemples d’invites :
- Synthèse de base : « Convertir le texte « Hello, bienvenue dans Azure AI Services » en reconnaissance vocale à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ et enregistrer dans output.wav »
- Avec la voix personnalisée : « Synthétiser « Merci d’utiliser notre service » dans un fichier audio greeting.mp3 à l’aide de ma voix personnalisée my-custom-voice sous le service «https://myservice.cognitiveservices.azure.com/ » et du point de terminaison « guid-endpoint ».
- Autre langue : « Générer la parole espagnole pour « Bienvenido a Azure » et enregistrer dans welcome-es.wav à l’aide de mon point de terminaison https://myresource.cognitiveservices.azure.com/ de reconnaissance vocale dans es-ES langue »
| Paramètre | Obligatoire ou facultatif | Descriptif |
|---|---|---|
| Point de terminaison | Obligatoire | URL du point de terminaison Azure AI Services (par exemple, https://your-service.cognitiveservices.azure.com/). |
| Texte | Obligatoire | Texte à convertir en parole. |
| Chemin d’accès du fichier de sortie | Obligatoire | Chemin d’accès où le fichier audio synthétisé sera enregistré. |
| Language | Optional | Langue de la reconnaissance vocale (par exemple, en-US, es-ES). La valeur par défaut est en-US. |
| Voix | Optional | Voix à utiliser pour la synthèse vocale (par exemple, en-US-JennyNeural). S’il n’est pas spécifié, la voix par défaut de la langue est utilisée. |
| Mettre en forme | Optional | Format de sortie : Riff24Khz16BitMonoPcm, , Audio16Khz32KBitRateMonoMp3Audio24Khz96KBitRateMonoMp3, . Ogg16Khz16BitMonoOpusRaw16Khz16BitMonoPcm La valeur par défaut est Riff24Khz16BitMonoPcm. |
| ID de point de terminaison | Optional | ID de point de terminaison d’un modèle vocal personnalisé pour la synthèse vocale. |
Indicateurs d’annotation d’outil :
Destructeur : ❌ | Idempotent : ✅ | Open World : ❌ | Lecture seule : ❌ | Secret : ❌ | Local requis : ✅