Intégrer et utiliser la reconnaissance vocale et la transcription

Effectué

Le service Speech est l’unification de la reconnaissance vocale, de la synthèse vocale et de la traduction vocale dans un abonnement Azure unique. Il est facile d’activer la reconnaissance vocale de vos applications, outils et appareils avec l’interface CLI Speech, le SDK Speech, le SDK Speech Devices, Speech Studio ou les API REST.

Reconnaissance vocale

Le service Reconnaissance de l’orateur fournit des algorithmes qui vérifient et identifient les haut-parleurs par leurs caractéristiques vocales uniques à l’aide de la biométrie vocale. Il est utilisé pour répondre à la question « qui parle ? » Tout d’abord, vous fournissez des données d’apprentissage audio pour un seul haut-parleur, ce qui crée un profil d’inscription basé sur les caractéristiques uniques de la voix de l’orateur. Vous pouvez ensuite croiser des échantillons vocaux audio avec ce profil pour vérifier que le locuteur est la même personne (vérification du locuteur), ou croiser des échantillons vocaux audio avec un groupe de profils de locuteurs inscrits pour voir s'il correspond à un profil dans le groupe (identification du locuteur). En revanche, la diarisation du locuteur utilise une opération par lot pour regrouper les flux audio par identité de locuteur, ce qui signifie que différents locuteurs auraient chacun leurs propres segments audio.

Transcription

La transcription est un ensemble d’opérations d’API REST qui vous permettent de transcrire l’audio dans le stockage. Vous pouvez pointer vers des fichiers audio avec un URI de signature d’accès partagé (SAS) et recevoir de manière asynchrone les résultats de la transcription.

Commandes vocales MRTK

Comme l’entrée vocale Windows, les fournisseurs d’entrée vocale ne créent pas de contrôleurs, mais vous permettent plutôt de définir des mots clés qui déclenchent des événements d’entrée vocale lorsqu’ils sont reconnus. Vous allez configurer les mots clés pour la reconnaissance dans le profil des commandes vocales du profil du système d'entrée. Pour chaque commande, vous pouvez également :

  • Sélectionnez une action d’entrée à mapper à la commande. De cette façon, vous pouvez, par exemple, rendre le mot clé Select avoir le même effet qu’un clic gauche de la souris en mappant les deux à la même action.
  • Spécifiez un code clé qui produit le même événement de reconnaissance vocale lorsque vous appuyez dessus.
  • Ajoutez une clé de localisation utilisée dans les applications UWP pour obtenir le mot clé localisé à partir des ressources de l’application.

Kit de développement logiciel (SDK) de reconnaissance vocale

Le kit de développement logiciel Speech (SDK) expose de nombreuses fonctionnalités de service speech pour vous permettre de développer des applications avec reconnaissance vocale. Le kit de développement logiciel (SDK) Speech est disponible dans de nombreux langages de programmation et sur toutes les plateformes. Le Kit de développement logiciel (SDK) Speech expose de nombreuses fonctionnalités (mais pas toutes) du service Speech. Les fonctionnalités du Kit de développement logiciel (SDK) Speech sont souvent associées à des scénarios. Le kit de développement logiciel (SDK) Speech est idéal pour les scénarios, en temps réel ou non, qui utilisent des appareils locaux, des fichiers, le stockage Blob Azure et même des flux d’entrée et de sortie. Lorsqu’un scénario n’est pas réalisable avec le Kit de développement logiciel (SDK) Speech, recherchez une alternative d’API REST.

Perception spatiale

La perception spatiale fournit un accès programmatique aux données de mappage spatial, donnant aux applications de réalité mixte des informations sur les surfaces dans les régions d’espace spécifiées par l’application près de l’utilisateur. Déclarez la fonctionnalité de perception spatiale uniquement lorsque votre application utilisera explicitement ces maillages de surface. La fonctionnalité n’est pas nécessaire pour les applications de réalité mixte pour effectuer un rendu holographique en fonction de la pose de la tête de l’utilisateur.

Serveur client Internet

Le serveur client Internet active les scénarios P2P (Peer-to-Peer) où l’application doit écouter les connexions réseau entrantes.

Serveur client de réseau privé

Le serveur client de réseau privé fournit un accès entrant et sortant aux réseaux domestiques et professionnels via le pare-feu. Cette fonctionnalité est généralement utilisée pour les jeux qui communiquent sur le réseau local (LAN) et pour les applications qui partagent des données sur différents appareils locaux.