Partager via


Qu’est-ce que le service Speech ?

Le service Speech fournit des capacités de reconnaissance vocale et de synthèse vocale avec une ressource Speech. Vous pouvez transcrire la parole en texte avec une précision élevée, produire des voix de synthèse vocale naturelles, traduire l’audio parlé et mener des conversations vocales en direct avec IA.

Image des vignettes qui mettent en évidence certaines caractéristiques du service Speech.

Créez des voix personnalisées, ajoutez des mots spécifiques à votre vocabulaire de base ou créez vos propres modèles. Exécutez Speech n’importe où, dans le cloud ou en périphérie dans des conteneurs. Vous pouvez aisément activer vos applications, outils et appareils pour les services Speech avec l’interface CLI Speech, le SDK Speech et les API REST.

Speech est disponible dans diverses langues, régions et gammes de prix.

Scénarios de Custom Speech

Voici quelques scénarios courants de Custom Speech :

  • Sous-titrage : découvrez comment synchroniser les sous-titres avec le contenu audio en entrée, appliquer des filtres de vulgarité, obtenir des résultats partiels, appliquer des personnalisations et identifier les langues parlées pour les scénarios multilingues.
  • Création de contenu audio : vous pouvez utiliser des voix neuronales pour rendre les interactions avec les chatbots et les agents vocaux plus naturels et attrayants, convertir des textes numériques tels que des livres électroniques en livres audio et améliorer les systèmes de navigation en voiture.
  • Centre d’appels : transcrivez les appels en temps réel ou traitez les appels par lots, supprimez les informations d’identification personnelle et extrayez des insights comme le sentiment pour faciliter votre cas d’usage de centre d’appels.
  • Apprentissage de la langue : fournir des commentaires d’évaluation de la prononciation aux apprenants de langue, prendre en charge la transcription en temps réel pour les conversations d’apprentissage à distance, et lire à voix haute des supports d’enseignement avec des voix neuronales.
  • Voix en direct : créez des interfaces naturelles, humaines comme des interfaces conversationnelles pour les applications et les expériences. La fonctionnalité de voix en direct fournit une interaction rapide et fiable entre un humain et une implémentation d’agent.

Microsoft utilise Speech pour de nombreux scénarios, tels que le sous-titrage dans Teams, la dictée dans Office 365 et Lire à haute voix dans le navigateur Microsoft Edge.

Image montrant les logos des produits Microsoft où le service Speech est utilisé.

Capacités de Speech

Ces sections résument les fonctionnalités de Speech et proposent des liens pour plus d’informations.

Reconnaissance vocale

Utilisez la reconnaissance vocale en texte pour convertir l’audio en texte , qu’il s’agisse d’une transcription en temps réel pour la diffusion audio en continu, d’une transcription rapide pour les fichiers audio préenregistrés ou de transcription par lot pour le traitement de grands volumes audio de manière asynchrone.

Le modèle de base peut s’avérer insuffisant si l’audio contient des bruits ambiants ou de nombreux jargons spécifiques à un secteur ou à un domaine d’activité. Dans ce cas, vous pouvez créer et entraîner des modèles vocaux personnalisés avec des données acoustiques, linguistiques et de prononciation. Les modèles vocaux personnalisés sont privés et peuvent offrir un avantage concurrentiel.

Synthèse vocale

Avec la synthèse vocale, vous pouvez convertir un texte en une synthèse vocale semblable à celle d’un être humain. Utilisez des voix neurales, qui sont des voix humaines alimentées par des réseaux neuronaux profonds. Utilisez le langage SSML (Speech Synthesis Markup Language) pour ajuster la tonalité, la prononciation, le débit de parole, le volume et bien plus encore.

  • Voix standard : Voix très naturelles, prêtes à l’emploi. Vérifiez les exemples vocaux standard de la galerie de voix et déterminez la voix appropriée pour vos besoins professionnels.
  • Voix personnalisée : outre les voix standard qui sortent de la boîte, vous pouvez également créer une voix personnalisée reconnaissable et unique à votre marque ou produit. Les voix personnalisées sont privées et peuvent offrir un avantage concurrentiel. Consultez les exemples vocaux personnalisés ici.

Traduction vocale

La traduction vocale permet à vos applications, outils et appareils d’effectuer de la traduction multilingue en temps réel de la parole. Utilisez cette fonctionnalité pour la traduction de voix en voix et de voix en texte.

Synthèse vocale LLM (préversion)

La reconnaissance vocale LLM prend actuellement en charge les tâches vocales suivantes :

  • transcribe: convertir l’audio préenregistré en texte.
  • translate: convertissez l’audio préenregistré en texte dans une langue cible spécifiée.

La synthèse vocale LLM utilise un modèle de reconnaissance vocale amélioré par un modèle de langage volumineux qui offre une meilleure qualité, une compréhension contextuelle approfondie, une prise en charge multilingue et des fonctionnalités de réglage d’invite. Il partage les mêmes performances d’inférence ultra-rapide que la transcription rapide, ce qui le rend idéal pour les cas d’utilisation tels que la génération de sous-titres et de sous-titres à partir de fichiers audio, la synthèse des notes de réunion, l’assistance aux agents du centre d’appels, la transcription des messages vocaux, etc.

Identification de la langue

L’identification de la langue sert à identifier les langues parlées dans du contenu audio par comparaison à la liste des langues prises en charge. Utilisez l’identification de langue seule, ou avec la reconnaissance vocale ou la traduction vocale.

Évaluation de la prononciation

L’évaluation de la prononciation évalue la prononciation de la parole et fournit des indications aux orateurs sur la précision et la maîtrise du discours. Grâce à l’évaluation de la prononciation, les élèves qui apprennent des langues peuvent pratiquer, obtenir des commentaires instantanés et améliorer leur prononciation pour pouvoir parler et se présenter en toute confiance.

Livraison et présence

Vous pouvez déployer Des fonctionnalités Azure Speech dans Foundry Tools dans le cloud ou localement.

Avec des conteneurs, vous pouvez rapprocher le service de vos données pour favoriser la conformité, la sécurité ou pour d’autres raisons opérationnelles.

Le déploiement du service Speech dans les clouds souverains est possible pour certains organismes publics et leurs partenaires. Par exemple, le cloud Azure Government est disponible pour les organismes publics américains et leurs partenaires. Microsoft Azure géré par le cloud 21Vianet est accessible aux organisations ayant une présence commerciale en Chine. Pour plus d’informations, consultez Clouds souverains.

Diagramme montrant où le service Speech peut être déployé et accessible.

Utiliser Speech dans votre application

Speech Studio est un ensemble d’outils basés sur l’interface utilisateur pour créer et intégrer des fonctionnalités à partir du service Azure Speech dans vos applications. Vous créez des projets dans Speech Studio à l’aide d’une approche sans code, puis vous référencez les ressources que vous créez dans vos applications à l’aide du SDK Speech, de l’interface CLI Speech ou d’API REST.

L’interface CLI Speech est un outil en ligne de commande qui vous permet d’utiliser le service Speech sans avoir à écrire du code. La plupart des fonctionnalités fournies dans le SDK Speech sont disponibles dans l’interface CLI Speech, et certaines fonctionnalités avancées et personnalisations sont simplifiées dans l’interface CLI Speech.

Le kit SDK Speech expose les nombreuses capacités du service Speech dont vous pouvez vous servir pour développer des applications intégrant la reconnaissance vocale. Le kit de développement logiciel (SDK) Speech est disponible dans de nombreux langages de programmation et sur toutes les plateformes.

Dans certains cas, vous ne pouvez pas ou ne devez pas utiliser le kit SDK Speech. Dans ce cas, vous pouvez utiliser des API REST pour accéder au service Speech. Par exemple, utilisez des API REST pour la transcription par lots.

Bien démarrer

Nous proposons des guides de démarrage rapide pour de nombreux langages de programmation très répandus. Chaque guide de démarrage rapide est conçu pour vous montrer des modèles de conception de base et vous permettre d’exécuter du code en moins de 10 minutes. Consultez la liste suivante pour connaître le guide de démarrage rapide de chaque fonctionnalité :

Exemples de code

Un exemple de code pour le service Speech est disponible sur GitHub. Ces exemples couvrent des scénarios courants tels que la lecture du signal audio d’un fichier ou d’un flux, la reconnaissance continue et ponctuelle, et l’utilisation de modèles personnalisés. Pour voir les exemples SDK et REST, suivez ces liens :

IA responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.

Reconnaissance vocale

Évaluation de la prononciation

Voix personnalisée

Étapes suivantes