Partager via


Entrée vocale

Entrée vocale

La voix est l’une des principales formes d’entrée sur HoloLens. Il vous permet de commander directement un hologramme sans avoir à utiliser des mouvements de la main. L’entrée vocale peut être un moyen naturel de communiquer votre intention. La voix est particulièrement bonne pour parcourir des interfaces complexes, car elle permet aux utilisateurs de parcourir les menus imbriqués avec une seule commande.

L’entrée vocale est alimentée par le même moteur que celui qui prend en charge la reconnaissance vocale dans toutes les applications Windows universelles. Sur HoloLens, la reconnaissance vocale fonctionne toujours dans la langue d’affichage Windows configurée dans les paramètres de votre appareil.


Voix et regard

Lorsque vous utilisez des commandes vocales, la tête ou le regard est le mécanisme de ciblage classique, qu’il s’agisse d’un curseur à « sélectionner » ou de canaliser votre commande vers une application que vous examinez. Il se peut même qu’il ne soit pas nécessaire d’afficher un curseur de regard (« voir, dis-le ») . Certaines commandes vocales ne nécessitent aucune cible, comme « démarrer » ou « Hey Cortana ».

Prise en charge des appareils

Fonctionnalité HoloLens (1ère génération) HoloLens 2 Casques immersifs
Entrée vocale ✔️ ✔️ ✔️ (avec microphone)

Commande « select »

HoloLens (1ère génération)

Même sans ajouter spécifiquement la prise en charge vocale à votre application, vos utilisateurs peuvent activer des hologrammes simplement en disant la commande vocale système « select ». Cela se comporte de la même façon qu’un appui aérien sur HoloLens, un appui sur le bouton de sélection sur le clicker HoloLens ou un appui sur la gâchette sur un contrôleur de mouvement Windows Mixed Reality. Vous entendez un son et une info-bulle avec « sélectionner » s’affiche comme confirmation. « Sélectionner » est activé par un algorithme de détection de mot clé à faible consommation d’énergie, ce qui signifie que vous pouvez dis-le à tout moment avec un impact minimal sur l’autonomie de la batterie. Vous pouvez même dire « sélectionner » avec vos mains à vos côtés.



HoloLens 2

Pour utiliser la commande vocale « select » dans HoloLens 2, vous devez d’abord afficher le curseur du regard à utiliser comme pointeur. La commande pour l’afficher est facile à mémoriser : il suffit de dire « sélectionner ».

Pour quitter le mode, utilisez à nouveau vos mains en appuyant sur l’air, en approchant d’un bouton avec vos doigts ou en utilisant le mouvement du système.

Image : dites « sélectionner » pour utiliser la commande vocale pour la sélection

Un utilisateur peut dire « sélectionner » pour utiliser la commande vocale pour une sélection.



Hé Cortana

Vous pouvez dire « Hey Cortana » pour afficher Cortana à tout moment. Vous n’avez pas à attendre qu’elle apparaisse pour continuer à lui poser votre question ou lui donner des instructions. Par exemple, essayez de dire « Hey Cortana, qu’est-ce qu’il fait ? » en une seule phrase. Pour plus d’informations sur Cortana et ce que vous pouvez faire, demandez-lui ! Dites « Hey Cortana, qu’est-ce que je peux dire ? » et elle va extraire une liste de commandes de travail et suggérées. Si vous êtes déjà dans l’application Cortana, sélectionnez l’icône ? dans la barre latérale pour afficher ce même menu.

Commandes spécifiques à HoloLens

  • « Que puis-je dire ? »
  • « Accéder à l’écran de démarrage » - au lieu de s’afficher pour accéder au menu Démarrer
  • « Lancer l’application <>»
  • « Déplacer l’application <> ici »
  • « Prendre une photo »
  • « Démarrer l’enregistrement »
  • « Arrêter l’enregistrement »
  • « Afficher le rayon de la main »
  • « Masquer le rayon de la main »
  • « Augmenter la luminosité »
  • « Diminuer la luminosité »
  • « Augmenter le volume »
  • « Diminuer le volume »
  • « Désactiver le son » ou « Désactiver le son »
  • « Arrêter l’appareil »
  • « Redémarrer l’appareil »
  • « Aller au sommeil »
  • « Quelle heure est-il ? »
  • « Quelle quantité de batterie ai-je restant ? »


« Voyez-le, dites-le »

HoloLens a un modèle « voir, dis-le » pour l’entrée vocale, où les étiquettes sur les boutons indiquent aux utilisateurs les commandes vocales qu’ils peuvent également dire. Par exemple, quand vous examinez une fenêtre d’application dans HoloLens (1ère génération), un utilisateur peut dire « Ajuster » pour ajuster la position de l’application dans le monde.

Image : un utilisateur peut indiquer la commande « Ajuster », qu’il voit dans la barre de l’application pour ajuster la position de l’application

Espace
Lorsqu’il examine une fenêtre d’application ou un hologramme, un utilisateur peut indiquer la commande « Ajuster » qu’il voit dans la barre de l’application pour ajuster la position de l’application dans le monde


Lorsque les applications suivent cette règle, les utilisateurs peuvent facilement comprendre ce qu’il faut dire pour contrôler le système. Lorsque vous regardez un bouton dans HoloLens (1ère génération), vous verrez une info-bulle « voice dwell » qui s’affiche après une seconde si le bouton est activé par la voix et affiche la commande permettant de parler pour « appuyer » dessus. Pour afficher les info-bulles vocales dans HoloLens 2, affichez le curseur vocal en disant « sélectionner » ou « Que puis-je dire » (voir l’image).

Image : les commandes « Voir, dis-le » s’affichent sous les boutons

Voyez-le, dis-le commandes s’affichent sous les boutons



Commandes vocales pour la manipulation rapide des hologrammes

Il existe de nombreuses commandes vocales que vous pouvez dire tout en regardant un hologramme pour effectuer rapidement des tâches de manipulation. Ces commandes vocales fonctionnent sur les fenêtres d’application et les objets 3D que vous avez placés dans le monde.

Commandes de manipulation d’hologramme

  • Face à moi
  • Plus grand | Améliorer
  • Plus petit

Sur HoloLens 2, vous pouvez également créer des interactions plus naturelles en combinaison avec le regard, qui fournit implicitement des informations contextuelles sur ce à quoi vous faites référence. Par exemple, vous pouvez regarder un hologramme et dire « mettre ceci », puis regarder où vous voulez le placer et dire « ici ». Ou vous pouvez examiner une partie holographique sur une machine complexe et dire : « Donnez-moi plus d’informations à ce sujet ».

Découverte des commandes vocales

Certaines commandes, comme les commandes de manipulation rapide ci-dessus, peuvent être masquées. Pour en savoir plus sur les commandes que vous pouvez utiliser, regardez un objet et dites : « Que puis-je dire ? ». Une liste de commandes possibles s’affiche. Vous pouvez également utiliser le curseur du regard de la tête pour regarder autour et afficher les info-bulles vocales pour chaque bouton devant vous.

Si vous souhaitez obtenir une liste complète, dites simplement « Afficher toutes les commandes » à tout moment.

Dictée

Au lieu de taper avec des appuis aériens, la dictée vocale peut être plus efficace pour entrer du texte dans une application. Cela peut considérablement accélérer l’entrée avec moins d’efforts pour l’utilisateur.

La dictée vocale commence par sélectionner le bouton du microphone
La dictée vocale commence par sélectionner le bouton du microphone sur le clavier

Chaque fois que le clavier holographique est actif, vous pouvez passer en mode dictée au lieu de taper. Sélectionnez le microphone sur le côté de la zone de saisie de texte pour commencer.

Ajout de commandes vocales à votre application

Envisagez d’ajouter des commandes vocales à toute expérience que vous générez. La voix est un moyen puissant de contrôler le système et les applications. Étant donné que les utilisateurs parlent avec différents types de dialectes et d’accents, le choix approprié des mots clés vocaux garantit que les commandes de vos utilisateurs sont interprétées sans ambiguïté.

Meilleures pratiques

Voici quelques pratiques qui facilitent la reconnaissance vocale.

  • Utiliser des commandes concises : si possible, choisissez des mots clés de deux syllabes ou plus. Les mots d’une syllabe ont tendance à utiliser des sons voyelles différents lorsqu’ils sont prononcés par des personnes d’accents différents. Exemple : « Lire la vidéo » est préférable à « Lire la vidéo actuellement sélectionnée »
  • Utiliser un vocabulaire simple - Exemple : « Afficher une note » est préférable à « Afficher la pancarte »
  • Assurez-vous que les commandes sont non destructrices : assurez-vous que toutes les actions de commande vocale sont non destructrices et peuvent facilement être annulées au cas où une autre personne parlant près de l’utilisateur déclencherait accidentellement une commande.
  • Évitez les commandes de son similaires : évitez d’inscrire plusieurs commandes vocales qui semblent similaires. Exemple : « Afficher plus » et « Afficher le magasin » peuvent être similaires.
  • Annuler l’inscription de votre application quand elle n’utilise pas : lorsque votre application n’est pas dans un état dans lequel une commande vocale particulière est valide, envisagez de la désinscription afin que les autres commandes ne soient pas confondues pour celle-ci.
  • Tester avec différents accents : testez votre application avec des utilisateurs de différents accents.
  • Maintenir la cohérence des commandes vocales : si « Retour » accède à la page précédente, conservez ce comportement dans vos applications.
  • Évitez d’utiliser des commandes système : les commandes vocales suivantes sont réservées au système. Évitez donc de les utiliser dans vos applications :
    • « Hey Cortana »
    • « Sélectionner »
    • « Accéder au démarrage »

Avantages de l’entrée vocale

L’entrée vocale est un moyen naturel de communiquer nos intentions. La voix est particulièrement bonne pour les traversées d’interface, car elle peut aider les utilisateurs à traverser plusieurs étapes d’une interface. Un utilisateur peut dire « revenir en arrière » en regardant une page web, au lieu d’avoir à monter et à appuyer sur le bouton Précédent dans l’application. Ce petit gain de temps a un puissant effet émotionnel sur la perception de l’utilisateur de l’expérience et leur donne une petite quantité de superpuissance. L’utilisation de la voix est également une méthode d’entrée pratique lorsque nous avons les bras pleins ou que nous sommes multitâces. Sur les appareils où il est difficile de taper sur un clavier, la dictée vocale peut être un moyen efficace d’entrer du texte. Enfin, dans certains cas, lorsque l’étendue de précision du regard et du mouvement est limitée, la voix peut aider à lever l’ambiguïté de l’intention de l’utilisateur.

Comment l’utilisation de la voix peut bénéficier à l’utilisateur

  • Réduit le temps : cela devrait rendre l’objectif final plus efficace.
  • Réduit l’effort - il doit rendre les tâches plus fluides et plus faciles.
  • Réduit la charge cognitive : il est intuitif, facile à apprendre et à mémoriser.
  • Il est socialement acceptable - il doit s’adapter aux normes de comportement de la société.
  • C’est la routine - la voix peut facilement devenir un comportement habituel.

Défis pour l’entrée vocale

Bien que l’entrée vocale soit idéale pour de nombreuses applications différentes, elle rencontre également plusieurs défis. Comprendre à la fois les avantages et les défis de l’entrée vocale permet aux développeurs d’applications de faire des choix plus intelligents quant à la façon et au moment d’utiliser l’entrée vocale et de créer une expérience exceptionnelle pour leurs utilisateurs.

Entrée vocale pour le contrôle d’entrée continue Le contrôle affiné est l’un d’entre eux. Par exemple, un utilisateur peut vouloir modifier son volume dans son application de musique. Elle peut dire « plus fort », mais il n’est pas clair à quel point le système est censé faire le volume. L’utilisateur pourrait dire : « Faire un peu plus fort », mais « un peu » est difficile à quantifier. Le déplacement ou la mise à l’échelle d’hologrammes avec la voix est également difficile.

Fiabilité de la détection des entrées vocales Bien que les systèmes d’entrée vocale deviennent de mieux en mieux, ils peuvent parfois entendre et interpréter incorrectement une commande vocale. La clé est de relever le défi de votre application. Fournissez des commentaires à vos utilisateurs lorsque le système est à l’écoute et ce que le système a compris clarifie les problèmes potentiels de compréhension de la parole des utilisateurs.

Entrée vocale dans les espaces partagés La voix peut ne pas être socialement acceptable dans les espaces que vous partagez avec d’autres personnes. Voici quelques exemples :

  • L’utilisateur peut ne pas vouloir déranger d’autres personnes (par exemple, dans une bibliothèque silencieuse ou un bureau partagé)
  • Les utilisateurs peuvent se sentir mal à l’aise d’être vus parler à eux-mêmes en public,
  • Un utilisateur peut se sentir mal à l’aise de dicter un message personnel ou confidentiel (y compris des mots de passe) pendant que d’autres personnes écoutent

Entrée vocale de mots uniques ou inconnus Les difficultés d’entrée vocale se présentent également lorsque les utilisateurs dictent des mots qui peuvent être inconnus du système, tels que des surnoms, certains mots d’argot ou des abréviations.

Apprentissage des commandes vocales Bien que l’objectif ultime soit de converser naturellement avec votre système, souvent les applications s’appuient toujours sur des commandes vocales prédéfinies spécifiques. Un défi associé à un ensemble important de commandes vocales est de savoir comment les enseigner sans surcharger l’utilisateur et comment aider l’utilisateur à les conserver.



États de commentaires vocaux

Lorsque Voice est correctement appliqué, l’utilisateur comprend ce qu’il peut dire et obtient des commentaires clairs que le système a entendus correctement. Ces deux signaux permettent à l’utilisateur de se sentir confiant dans l’utilisation de Voice comme entrée principale. Vous trouverez ci-dessous un diagramme montrant ce qui arrive au curseur lorsque l’entrée vocale est reconnue et comment elle le communique à l’utilisateur.

1. État du curseur normal
1. État du curseur normal

2. Communique les commentaires vocaux, puis disparaît
2. Communique les commentaires vocaux, puis disparaît

*3. État du curseur normal
3. Retourne à l’état normal du curseur




Principales choses que les utilisateurs doivent savoir sur la « reconnaissance vocale » dans la réalité mixte

  • Dites « Sélectionner » tout en ciblant un bouton (vous pouvez l’utiliser n’importe où pour sélectionner un bouton).
  • Vous pouvez indiquer le nom d’étiquette d’un bouton de barre d’application dans certaines applications pour effectuer une action. Par exemple, lors de la recherche d’une application, un utilisateur peut dire la commande « Supprimer » pour supprimer l’application du monde (cela vous évite de devoir la sélectionner avec votre main).
  • Vous pouvez commencer à écouter Cortana en disant « Hey Cortana ». Vous pouvez lui poser des questions (« Hey Cortana, quelle est la hauteur de la tour Eiffel »), lui demander d’ouvrir une application (« Hey Cortana, ouvrez Netflix ») ou lui demander d’afficher le menu Démarrer (« Hey Cortana, ramenez-moi à la maison ») et bien plus encore.

Questions et préoccupations courantes des utilisateurs au sujet de la voix

  • Que puis-je dire ?
  • Comment faire sais que le système m’a bien entendu ?
    • Le système continue d’obtenir mes commandes vocales incorrectes.
    • Il ne réagit pas quand je lui donne une commande vocale.
  • Il réagit mal quand je lui donne une commande vocale.
  • Comment faire cibler ma voix vers une application ou une commande d’application spécifique ?
  • Puis-je utiliser la voix pour commander des éléments dans le cadre holographique sur HoloLens ?

Communication

Pour les applications qui souhaitent tirer parti des options de traitement d’entrée audio personnalisées fournies par HoloLens, il est important de comprendre les différentes catégories de flux audio que votre application peut consommer. Windows 10 prend en charge plusieurs catégories de flux différentes et HoloLens utilise trois d’entre elles pour permettre un traitement personnalisé afin d’optimiser la qualité audio du microphone adaptée à la voix, à la communication et à d’autres scénarios, qui peuvent être utilisés pour la capture audio de l’environnement ambiant (c’est-à-dire, « caméscope »).

  • La catégorie de flux AudioCategory_Communications est personnalisée pour les scénarios de qualité d’appel et de narration et fournit au client un flux audio mono 24 bits 16 kHz de la voix de l’utilisateur
  • La catégorie de flux AudioCategory_Speech est personnalisée pour le moteur vocal HoloLens (Windows) et lui fournit un flux mono de 16 kHz 24 bits de la voix de l’utilisateur. Cette catégorie peut être utilisée par des moteurs vocaux tiers si nécessaire.
  • La catégorie de flux AudioCategory_Other est personnalisée pour l’enregistrement audio de l’environnement ambiant et fournit au client un flux audio stéréo 24 bits 48 kHz.

Tout ce traitement audio est accéléré matériellement, ce qui signifie que les fonctionnalités drainent beaucoup moins d’énergie que si le même traitement était effectué sur le processeur HoloLens. Évitez d’exécuter d’autres traitements d’entrée audio sur le processeur pour optimiser l’autonomie de la batterie du système et tirer parti du traitement d’entrée audio intégré et déchargé.

Langages

HoloLens 2 prend en charge plusieurs langues. Gardez à l’esprit que les commandes vocales s’exécutent toujours dans la langue d’affichage du système, même si plusieurs claviers sont installés ou si les applications tentent de créer un module de reconnaissance vocale dans une autre langue.

Résolution des problèmes

Si vous rencontrez des problèmes avec « sélectionner » et « Hey Cortana », essayez de passer à un espace plus silencieux, de vous éloigner de la source de bruit ou de parler plus fort. À l’heure actuelle, toute la reconnaissance vocale sur HoloLens est paramétrée et optimisée spécifiquement pour les locuteurs natifs de États-Unis l’anglais.

Pour la version Windows Mixed Reality Developer Edition 2017, la logique de gestion des points de terminaison audio fonctionne correctement (indéfiniment) après la déconnexion et le retour sur le bureau du PC après la connexion HMD initiale. Avant ce premier événement de déconnexion/in après avoir passé par WMR OOBE, l’utilisateur pouvait rencontrer divers problèmes de fonctionnalité audio allant de l’absence d’audio à l’absence de commutation audio en fonction de la façon dont le système a été configuré avant de connecter le HMD pour la première fois.



Entrée vocale dans MRTK (Mixed Reality Toolkit) pour Unity

Avec MRTK, vous pouvez facilement affecter une commande vocale à n’importe quel objet. Utilisez le profil d’entrée vocale de MRTK pour définir vos mots clés. En affectant un script SpeechInputHandler , vous pouvez faire en sorte que n’importe quel objet réponde aux mots clés définis dans le profil d’entrée vocale. SpeechInputHandler fournit également une étiquette de confirmation vocale pour améliorer la confiance de l’utilisateur.


Voir aussi