Vue d’ensemble des outils Azure AI Speech pour le serveur Azure MCP

Utilisez le serveur Azure MCP pour gérer les fonctionnalités d’Azure AI Speech, telles que la reconnaissance vocale (STT) et la synthèse vocale (TTS) avec des invites en langage naturel.

Note

Paramètres de l’outil : les outils Azure MCP Server définissent des paramètres pour les données dont ils ont besoin pour effectuer des tâches. Certains de ces paramètres sont spécifiques à chaque outil et sont documentés ci-dessous. D’autres paramètres sont globaux et partagés par tous les outils. Pour plus d’informations, consultez Paramètres de l’outil.

Reconnaissance vocale : Reconnaître

Reconnaître la voix à partir d’un fichier audio à l’aide d’Azure AI Services Speech. Cette commande prend un fichier audio et le convertit en texte à l’aide de fonctionnalités avancées de reconnaissance vocale. Les formats audio pris en charge incluent WAV, MP3, OPUS/OGG, FLAC, ALAW, MULAW, MP4, M4A et AAC. Les formats compressés nécessitent l’installation de GStreamer sur le système.

Voici quelques exemples d’invites :

Conversion de base : « Convertir le fichier audio ./meeting-recording.wav en texte à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec Azure Speech Services »
Avec la détection de langue : « Reconnaître la voix à partir du fichier ./recording.mp3 à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec détection de langue »
Avec le filtrage de la profanité : « Transcrire la voix du fichier ./interview.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec l’option de profanité supprimée »
Spécifier le point de terminaison : « Convertir la reconnaissance vocale en texte à partir du fichier ./audio.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/"
Langue espagnole : « Transcrire le fichier audio ./session.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ dans es-ES langue »
Sortie détaillée : « Convertir la reconnaissance vocale en texte à partir du fichier ./audio.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec un format de sortie détaillé »
Avec des indicateurs d’expression : « Reconnaître la voix à partir du fichier ./notes.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec des indicateurs d’expression « Azure » pour une meilleure précision »
Indicateurs d’expressions multiples : « Transcrire le fichier ./meeting.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec des indicateurs d’expression : « Azure », « cognitive services », « Machine Learning »
Indicateurs séparés par des virgules : « Convertir la parole en texte à partir du fichier ./podcast.mp3 à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec des indicateurs d’expression : « Azure, cognitive services, API »
Sortie de profanité brute : « Transcrire l’audio à partir du fichier ./audio.wav à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ avec l’option de profanity raw »

Paramètre	Obligatoire ou facultatif	Descriptif
Point de terminaison	Obligatoire	URL du point de terminaison Azure AI Services (par exemple, `https://your-service.cognitiveservices.azure.com/`).
File	Obligatoire	Chemin d’accès au fichier audio local à reconnaître.
Language	Optional	Langue de la reconnaissance vocale (par exemple, `en-US`, `es-ES`). La valeur par défaut est `en-US`.
Expressions	Optional	Indicateurs d’expression pour améliorer la précision de la reconnaissance. Peut être spécifié plusieurs fois ou sous forme de valeurs séparées par des virgules.
Mettre en forme	Optional	Format de sortie : `simple` ou `detailed`.
Impiété	Optional	Filtre de profanité : `masked`, `removed`ou `raw`. La valeur par défaut est `masked`.

Indicateurs d’annotation d’outil :

Synthèse vocale : synthétiser

Convertissez du texte en synthèse vocale à l’aide d’Azure AI Services Speech. Cette commande prend l’entrée de texte et génère un fichier audio à l’aide de fonctionnalités de synthèse vocale neuronale avancées.

Voici quelques exemples d’invites :

Synthèse de base : « Convertir le texte « Hello, bienvenue dans Azure AI Services » en reconnaissance vocale à l’aide du point de terminaison https://myservice.cognitiveservices.azure.com/ et enregistrer dans output.wav »
Avec la voix personnalisée : « Synthétiser « Merci d’utiliser notre service » dans un fichier audio greeting.mp3 à l’aide de ma voix personnalisée my-custom-voice sous le service «https://myservice.cognitiveservices.azure.com/ » et du point de terminaison « guid-endpoint ».
Autre langue : « Générer la parole espagnole pour « Bienvenido a Azure » et enregistrer dans welcome-es.wav à l’aide de mon point de terminaison https://myresource.cognitiveservices.azure.com/ de reconnaissance vocale dans es-ES langue »

Paramètre	Obligatoire ou facultatif	Descriptif
Point de terminaison	Obligatoire	URL du point de terminaison Azure AI Services (par exemple, `https://your-service.cognitiveservices.azure.com/`).
Texte	Obligatoire	Texte à convertir en parole.
Chemin d’accès du fichier de sortie	Obligatoire	Chemin d’accès où le fichier audio synthétisé sera enregistré.
Language	Optional	Langue de la reconnaissance vocale (par exemple, `en-US`, `es-ES`). La valeur par défaut est `en-US`.
Voix	Optional	Voix à utiliser pour la synthèse vocale (par exemple, `en-US-JennyNeural`). S’il n’est pas spécifié, la voix par défaut de la langue est utilisée.
Mettre en forme	Optional	Format de sortie : `Riff24Khz16BitMonoPcm`, , `Audio16Khz32KBitRateMonoMp3Audio24Khz96KBitRateMonoMp3`, . `Ogg16Khz16BitMonoOpusRaw16Khz16BitMonoPcm` La valeur par défaut est `Riff24Khz16BitMonoPcm`.
ID de point de terminaison	Optional	ID de point de terminaison d’un modèle vocal personnalisé pour la synthèse vocale.

Indicateurs d’annotation d’outil :

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-12-09

Partager via

Vue d’ensemble des outils Azure AI Speech pour le serveur Azure MCP

Reconnaissance vocale : Reconnaître

Synthèse vocale : synthétiser

Contenu connexe

Commentaires

Ressources supplémentaires