Spracheingabe

Stimme ist eine der wichtigsten Eingabeformen in HoloLens. Es ermöglicht Ihnen, ein Hologramm direkt zu befehlen, ohne Handgesten verwenden zu müssen. Die Spracheingabe kann eine natürliche Möglichkeit sein, Ihre Absicht zu kommunizieren. Voice eignet sich besonders gut für die Durchquerung komplexer Schnittstellen, da benutzer mit einem Befehl geschachtelte Menüs durchschneiden können.

Die Spracheingabe wird von der gleichen Engine unterstützt, die Sprache in allen universellen Windows-Apps unterstützt. Auf HoloLens funktioniert die Spracherkennung immer in der Windows-Anzeigesprache, die in den Geräteeinstellungen konfiguriert ist.

Stimme und Anvisieren

Wenn Sie Sprachbefehle verwenden, ist das Anvisieren von Kopf oder Augen der typische Zielmechanismus, unabhängig davon, ob sie mit einem Cursor "auswählen" oder um Ihren Befehl an eine Anwendung zu kanalisieren, die Sie sich ansehen. Möglicherweise ist es nicht einmal erforderlich, einen Blickcursor anzuzeigen ("sehen Sie es, sagen Sie es") zu zeigen. Einige Sprachbefehle erfordern überhaupt kein Ziel, z. B. "Zum Start wechseln" oder "Hey Cortana".

Geräteunterstützung

Feature	HoloLens (1. Generation)	HoloLens 2	Immersive Headsets
Spracheingabe	✔️	✔️	✔️ (mit Mikrofon)

Der Befehl "select"

HoloLens (1. Generation)

Auch ohne spezifische Sprachunterstützung zu Ihrer App hinzuzufügen, können Ihre Benutzer Hologramme einfach aktivieren, indem sie den Systemstimmbefehl "Select" sagen. Dies verhält sich genauso wie ein Luftkippen auf HoloLens, das Drücken der Auswahltaste auf dem HoloLens-Clicker oder das Drücken des Triggers auf einem Windows Mixed Reality Motion Controller. Sie hören einen Sound und sehen als Bestätigung eine QuickInfo mit "Select". "Auswählen" wird durch einen Erkennungsalgorithmus für Schlüsselwort (keyword) mit geringem Stromverbrauch aktiviert. Dies bedeutet, dass Sie dies jederzeit mit minimalen Auswirkungen auf die Akkulaufzeit sagen können. Sie können sogar "Auswählen" mit den Händen an Ihrer Seite sagen.

HoloLens 2

Um den Sprachbefehl "select" in HoloLens 2 zu verwenden, müssen Sie zuerst den Anvisierencursor für die Verwendung als Zeiger aufrufen. Der Befehl zum Aufrufen ist leicht zu merken– sagen Sie einfach "auswählen".

Um den Modus zu beenden, verwenden Sie ihre Hände erneut, indem Sie auf die Luft tippen, sich mit den Fingern einer Taste nähern oder die Systembewegung verwenden.

Abbildung: Sagen Sie "select", um den Sprachbefehl für die Auswahl zu verwenden

Ein Benutzer kann

Hallo Cortana

Sie können "Hey Cortana" sagen, um Cortana jederzeit aufzurufen. Sie müssen nicht warten, bis sie erscheint, um ihr weiterhin Ihre Frage zu stellen oder ihr eine Anweisung zu geben. Versuchen Sie beispielsweise, "Hey Cortana, was ist das Wetter?" als einzelnen Satz zu sagen. Weitere Informationen zu Cortana und was Sie tun können, fragen Sie sie! Sagen Sie "Hey Cortana, was kann ich sagen?", und sie ruft eine Liste der funktionierenden und vorgeschlagenen Befehle auf. Wenn Sie sich bereits in der Cortana-App befinden, wählen Sie das Symbol ? auf der Seitenleiste aus, um dasselbe Menü aufzurufen.

HoloLens-spezifische Befehle

"Was kann ich sagen?"
"Gehe zu Start" – anstelle von "Bloom", um zum Startmenü zu gelangen
"App> starten<"
"App> hier verschieben<"
"Machen Sie ein Bild"
"Aufzeichnung starten"
"Aufzeichnung beenden"
"Handstrahl anzeigen"
"Handstrahl ausblenden"
"Erhöhen sie die Helligkeit"
"Verringern der Helligkeit"
"Erhöhen der Lautstärke"
"Verringern der Lautstärke"
"Stummschalten" oder "Stummschaltung aufheben"
"Gerät herunterfahren"
"Gerät neu starten"
"In den Ruhezustand"
"Welche Zeit ist es?"
"Wie viel Akku habe ich noch?"

"See It, Say It"

HoloLens verfügt über ein "See it, say it"-Modell für die Spracheingabe, bei dem Bezeichnungen auf Schaltflächen den Benutzern mitteilen, welche Sprachbefehle sie ebenfalls sagen können. Wenn sie sich beispielsweise ein App-Fenster in HoloLens (1. Generation) ansehen, kann ein Benutzer den Befehl "Anpassen" sagen, um die Position der App in der Welt anzupassen.

Bild: Ein Benutzer kann den Befehl "Anpassen" sagen, den er in der App-Leiste sieht, um die Position der App anzupassen.

Beim Betrachten eines App-Fensters oder Hologramms kann ein Benutzer den Befehl

Wenn Apps diese Regel befolgen, können Benutzer leicht verstehen, was sie sagen müssen, um das System zu steuern. Beim Blick auf eine Schaltfläche in HoloLens (1. Generation) sehen Sie eine QuickInfo "Voice dwell", die nach einer Sekunde angezeigt wird, wenn die Schaltfläche sprachaktiviert ist und den Befehl zum "Drücken" anzeigt. Um Sprach-QuickInfos in HoloLens 2 anzuzeigen, zeigen Sie den Sprachcursor an, indem Sie "Auswählen" oder "Was kann ich sagen" sagen (siehe Bild).

Bild: Befehle "See it, say it" (Sehen, sagen Sie es) werden unter den Schaltflächen angezeigt

Sehen Sie es, sagen Sie, dass Befehle unter den Schaltflächen angezeigt werden

Sprachbefehle für schnelle Hologrammbearbeitung

Es gibt viele Sprachbefehle, die Sie beim Betrachten eines Hologramms sagen können, um schnell Manipulationsaufgaben auszuführen. Diese Sprachbefehle funktionieren in App-Fenstern und 3D-Objekten, die Sie in der Welt platziert haben.

Hologrammbearbeitungsbefehle

Face me
Größer | Verbessern
Kleiner

Auf HoloLens 2 können Sie auch natürlichere Interaktionen in Kombination mit dem Anvisieren mit den Augen erstellen, die implizit kontextbezogene Informationen darüber liefern, worauf Sie sich beziehen. Sie könnten sich beispielsweise ein Hologramm ansehen und "put this" sagen und dann an der Stelle suchen, an der Sie es platzieren möchten, und " hier oben" sagen. Oder Sie können sich einen holografischen Teil auf einer komplexen Maschine ansehen und sagen: "Gib mir mehr Informationen dazu".

Ermitteln von Sprachbefehlen

Einige Befehle, z. B. die Befehle für die schnelle Bearbeitung oben, können ausgeblendet werden. Um zu erfahren, welche Befehle Sie verwenden können, schauen Sie auf ein Objekt und sagen: "Was kann ich sagen?". Eine Liste möglicher Befehle wird angezeigt. Sie können auch den Kopf-Anvisierungscursor verwenden, um sich umzusehen und die Sprach-QuickInfos für jede Schaltfläche vor Ihnen anzuzeigen.

Wenn Sie eine vollständige Liste benötigen, sagen Sie einfach jederzeit "Alle Befehle anzeigen".

Diktat

Anstatt mit Lufteingaben zu tippen, kann das Sprachdiktat effizienter sein, um Text in eine App einzugeben. Dies kann die Eingabe mit weniger Aufwand für den Benutzer erheblich beschleunigen.

Sprachdiktate beginnen durch Auswählen der Mikrofontaste
Sprachdiktatur beginnt durch Auswählen der Mikrofontaste auf der Tastatur

Immer wenn die holografische Tastatur aktiv ist, können Sie in den Diktiermodus wechseln, anstatt einzugeben. Wählen Sie das Mikrofon an der Seite des Texteingabefelds aus, um zu beginnen.

Hinzufügen von Sprachbefehlen zu Ihrer App

Erwägen Sie das Hinzufügen von Sprachbefehlen zu jeder Benutzeroberfläche, die Sie erstellen. Voice ist eine leistungsstarke Möglichkeit, das System und apps zu steuern. Da Benutzer mit verschiedenen Arten von Dialekten und Akzenten sprechen, stellt die richtige Wahl der Sprachschlüsselwörter sicher, dass die Befehle Ihrer Benutzer eindeutig interpretiert werden.

Bewährte Methoden

Im Folgenden finden Sie einige Methoden, die die reibungslose Spracherkennung unterstützen.

Präzise Befehle verwenden : Wählen Sie nach Möglichkeit Schlüsselwörter mit zwei oder mehr Silben aus. Wörter mit einer Silbe verwenden in der Regel unterschiedliche Vokallaute, wenn sie von Personen mit unterschiedlichem Akzent gesprochen werden. Beispiel: "Video wiedergeben" ist besser als "Wiedergabe des aktuell ausgewählten Videos"
Einfaches Vokabular verwenden – Beispiel: "Notiz anzeigen" ist besser als "Placard anzeigen"
Sicherstellen, dass Befehle nicht destruktiv sind : Stellen Sie sicher, dass alle Sprachbefehlsaktionen nicht destruktiv sind und leicht rückgängig gemacht werden können, falls eine andere Person, die in der Nähe des Benutzers spricht, versehentlich einen Befehl auslöst.
Vermeiden Ähnlich klingender Befehle : Vermeiden Sie die Registrierung mehrerer Sprachbefehle, die ähnlich klingen. Beispiel: "Show more" und "Show store" können ähnlich klingen.
Aufheben der Registrierung Ihrer App, wenn sie nicht verwendet : Wenn sich Ihre App nicht in einem Zustand befindet, in dem ein bestimmter Sprachbefehl gültig ist, sollten Sie die Registrierung aufheben, damit andere Befehle nicht mit diesem Befehl verwechselt werden.
Testen mit unterschiedlichen Akzenten : Testen Sie Ihre App mit Benutzern mit unterschiedlichen Akzenten.
Beibehalten der Sprachbefehlskonsistenz: Wenn "Zurück" zur vorherigen Seite wechselt, behalten Sie dieses Verhalten in Ihren Anwendungen bei.
Vermeiden Sie die Verwendung von Systembefehlen . Die folgenden Sprachbefehle sind für das System reserviert, daher sollten Sie sie nicht in Ihren Anwendungen verwenden:
- "Hey Cortana"
- "Auswählen"
- "Zum Start wechseln"

Vorteile der Spracheingabe

Spracheingaben sind eine natürliche Möglichkeit, unsere Absichten zu kommunizieren. Voice eignet sich besonders gut für Schnittstellendurchläufe , da sie Benutzern dabei helfen kann, mehrere Schritte einer Schnittstelle zu durchlaufen. Ein Benutzer könnte beim Betrachten einer Webseite "Zurück" sagen, anstatt in der App auf die Schaltfläche "Zurück" zu klicken. Diese kleine Zeitersparnis hat einen starken emotionalen Effekt auf die Wahrnehmung des Benutzers von der Erfahrung und gibt ihnen eine kleine Menge Superpower. Die Verwendung von Sprache ist auch eine praktische Eingabemethode, wenn wir die Arme voll haben oder multitaskieren. Auf Geräten, auf denen die Eingabe auf einer Tastatur schwierig ist, kann das Diktieren eine effiziente alternative Möglichkeit zur Texteingabe sein. Schließlich kann die Stimme in einigen Fällen, in denen die Genauigkeit für Anvisieren und Gesten begrenzt ist, dazu beitragen, die Absicht des Benutzers zu unterscheiden.

Wie die Verwendung von Stimme dem Benutzer zugute kommen kann

Reduziert die Zeit – es sollte das Endziel effizienter machen.
Minimiert den Aufwand – es sollte Aufgaben flüssiger und müheloser machen.
Reduziert die kognitive Last – es ist intuitiv, leicht zu erlernen und zu merken.
Es ist sozial akzeptabel - es sollte zu gesellschaftlichen Verhaltensnormen passen.
Es ist Routine - Stimme kann leicht zu einem gewohnheitsmäßigen Verhalten werden.

Herausforderungen bei der Spracheingabe

Die Spracheingabe eignet sich zwar hervorragend für viele verschiedene Anwendungen, steht aber auch vor mehreren Herausforderungen. Wenn Sie sowohl die Vorteile als auch die Herausforderungen für die Spracheingabe verstehen, können App-Entwickler intelligentere Entscheidungen treffen, wie und wann sie Spracheingaben verwenden und eine großartige Erfahrung für ihre Benutzer schaffen.

Spracheingabe zur kontinuierlichen Eingabesteuerung Eine von ihnen ist eine differenzierte Steuerung. Beispielsweise kann ein Benutzer seine Lautstärke in seiner Musik-App ändern. Sie kann "lauter" sagen, aber es ist nicht klar, wie viel lauter das System die Lautstärke machen soll. Der Benutzer könnte sagen: "Machen Sie es etwas lauter", aber "ein wenig" ist schwer zu quantifizieren. Das Verschieben oder Skalieren von Hologrammen mit Stimme ist ähnlich schwierig.

Zuverlässigkeit der Spracheingabeerkennung Während Spracheingabesysteme immer besser werden, hören und interpretieren sie manchmal fälschlicherweise einen Sprachbefehl. Der Schlüssel besteht darin, die Herausforderung in Ihrer Anwendung zu lösen. Geben Sie Ihren Benutzern Feedback, wenn das System zuhört und was das System verstanden hat, klären potenzielle Probleme beim Verständnis der Sprache der Benutzer.

Spracheingabe in freigegebenen Räumen Stimme ist in Räumen, die Sie mit anderen teilen, möglicherweise nicht sozial akzeptabel. Hier ein paar Beispiele:

Der Benutzer möchte andere benutzer möglicherweise nicht stören (z. B. in einer ruhigen Bibliothek oder einem gemeinsamen Büro).
Benutzer fühlen sich möglicherweise unbeholfen, wenn sie in der Öffentlichkeit mit sich selbst sprechen,
Ein Benutzer kann sich beim Diktieren einer persönlichen oder vertraulichen Nachricht (einschließlich Kennwörtern) unwohl fühlen, während andere zuhören.

Spracheingabe eindeutiger oder unbekannter Wörter Schwierigkeiten bei der Spracheingabe treten auch auf, wenn Benutzer Wörter diktieren, die dem System möglicherweise unbekannt sind, z. B. Spitznamen, bestimmte Slangwörter oder Abkürzungen.

Lernen von Sprachbefehlen Während das ultimative Ziel darin besteht, sich auf natürliche Weise mit Ihrem System zu unterhalten, verlassen sich Apps häufig immer noch auf bestimmte vordefinierte Sprachbefehle. Eine Herausforderung, die mit einer erheblichen Anzahl von Sprachbefehlen verbunden ist, besteht darin, sie zu unterrichten, ohne den Benutzer zu überlasten, und wie man dem Benutzer hilft, sie zu behalten.

Sprachfeedbackstatus

Wenn Voice ordnungsgemäß angewendet wird, versteht der Benutzer , was er sagen kann, und erhält ein klares Feedback , das das System richtig gehört hat. Diese beiden Signale geben dem Benutzer das Gefühl, Voice als primäre Eingabe zu verwenden. Im Folgenden finden Sie ein Diagramm, das zeigt, was mit dem Cursor geschieht, wenn die Spracheingabe erkannt wird und wie dies dem Benutzer mitgeteilt wird.

1. Regulärer Cursorzustand

2. Kommuniziert Sprachfeedback und verschwindet dann

*3. Regulärer Cursorzustand
3. Zurück zum regulären Cursorzustand

Wichtigste Dinge, die Benutzer über "Sprache" in Mixed Reality wissen sollten

Sagen Sie "Auswählen" , wenn Sie auf eine Schaltfläche abzielen (Sie können diese an einer beliebigen Stelle verwenden, um eine Schaltfläche auszuwählen).
Sie können den Bezeichnungsnamen einer App-Leistenschaltfläche in einigen Apps angeben, um eine Aktion auszuführen. Beim Betrachten einer App kann ein Benutzer beispielsweise den Befehl "Entfernen" sagen, um die App aus der Welt zu entfernen (dies spart Zeit, um sie mit der Hand auswählen zu müssen).
Sie können Cortana zuhören, indem Sie "Hey Cortana" sagen. Sie können ihr Fragen stellen ("Hey Cortana, wie hoch ist der Eiffelturm"), sie auffordern, eine App zu öffnen ("Hey Cortana, Netflix öffnen") oder sie auffordern, das Startmenü ("Hey Cortana, bring mich nach Hause") und vieles mehr aufzurufen.

Häufige Fragen und Bedenken, die Benutzer in Bezug auf Spracheingabe haben

Was soll ich sagen?
Gewusst wie wissen, dass das System mich richtig gehört hat?
- Das System bekommt meine Sprachbefehle immer wieder falsch.
- Es reagiert nicht, wenn ich ihm einen Sprachbefehl gebe.
Es reagiert falsch, wenn ich ihm einen Sprachbefehl gebe.
Gewusst wie meine Stimme auf eine bestimmte App oder einen bestimmten App-Befehl ausrichten?
Kann ich sprachgesteuerte Elemente aus dem holografischen Rahmen auf HoloLens herausholen?

Kommunikation

Für Anwendungen, die die von HoloLens bereitgestellten benutzerdefinierten Audioeingabeverarbeitungsoptionen nutzen möchten, ist es wichtig, die verschiedenen Audiostreamkategorien zu verstehen, die Ihre App nutzen kann. Windows 10 unterstützt mehrere verschiedene Streamkategorien, und HoloLens verwendet drei davon, um eine benutzerdefinierte Verarbeitung zu ermöglichen, um die Audioqualität des Mikrofons zu optimieren, die auf Sprache, Kommunikation und andere zugeschnitten ist, die für Audioaufnahmen in Umgebungsumgebungen (d. h. "Camcorder") verwendet werden kann.

Die AudioCategory_Communications-Stream-Kategorie ist für Anrufqualitäts- und Kommentarszenarien angepasst und stellt dem Client einen 16-kHz-Mono-24-Bit-Audiostream der Stimme des Benutzers zur Verfügung.
Die AudioCategory_Speech-Stream-Kategorie ist für die Sprach-Engine von HoloLens (Windows) angepasst und stellt einen 16-kHz-24-Bit-Monostream der Stimme des Benutzers bereit. Diese Kategorie kann bei Bedarf von Sprach-Engines von Drittanbietern verwendet werden.
Die AudioCategory_Other-Datenstromkategorie ist für die Audioaufzeichnung in Umgebungsumgebungen angepasst und stellt dem Client einen 48-kHz-24-Bit-Stereo-Audiostream zur Verfügung.

All diese Audioverarbeitung ist hardwarebeschleunigt, was bedeutet, dass die Funktionen viel weniger Energie verbrauchen, als wenn die gleiche Verarbeitung auf der HoloLens-CPU durchgeführt würde. Vermeiden Sie es, andere Audioeingabeverarbeitungen auf der CPU auszuführen, um die Akkulaufzeit des Systems zu maximieren und die integrierte, abgeladene Audioeingabeverarbeitung zu nutzen.

Sprachen

HoloLens 2 unterstützt mehrere Sprachen. Beachten Sie, dass Sprachbefehle immer in der Anzeigesprache des Systems ausgeführt werden, auch wenn mehrere Tastaturen installiert sind oder Apps versuchen, eine Spracherkennung in einer anderen Sprache zu erstellen.

Problembehandlung

Wenn Sie Probleme bei der Verwendung von "Select" und "Hey Cortana" haben, versuchen Sie, in einen ruhigeren Raum zu wechseln, sich von der Geräuschquelle abzuwenden oder lauter zu sprechen. Zu diesem Zeitpunkt ist die gesamte Spracherkennung auf HoloLens speziell für Muttersprachler von USA Englisch optimiert.

Für das Windows Mixed Reality Developer Edition-Release 2017 funktioniert die Verwaltungslogik für Audioendpunkte (für immer) einwandfrei, nachdem sie sich nach der ersten HMD-Verbindung abgemeldet und wieder auf dem PC-Desktop angemeldet haben. Vor diesem ersten Abmelde-/In-Ereignis nach dem Durchlaufen der WMR-OOBE kann der Benutzer verschiedene Audiofunktionsprobleme haben, die von keinem Audio bis hin zu keinem Audiowechsel reichen, je nachdem, wie das System eingerichtet wurde, bevor das HMD zum ersten Mal verbunden wurde.

Spracheingabe im MRTK (Mixed Reality Toolkit) für Unity

Mit MRTK können Sie ganz einfach Sprachbefehle für beliebige Objekte zuweisen. Verwenden Sie das Spracheingabeprofil von MRTK, um Ihre Schlüsselwörter zu definieren. Durch Zuweisen eines SpeechInputHandler-Skripts können Sie jedes Objekt dazu bringen, auf die im Speech Input Profile definierten Schlüsselwörter zu reagieren. SpeechInputHandler bietet auch eine Sprachbestätigungsbezeichnung, um das Vertrauen des Benutzers zu verbessern.

MRTK – Sprachbefehl

Siehe auch

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-17