音声は、HoloLens での入力の主要な形式の 1 つです。 これにより、手のジェスチャを使用せずにホログラムを直接コマンドできます。 音声入力は、意図を伝える自然な方法です。 音声は、ユーザーが 1 つのコマンドで入れ子になったメニューを切り取ることができるため、複雑なインターフェイスの走査に特に適しています。
音声入力には、すべてのユニバーサル Windows アプリで音声をサポートする同じエンジンが搭載されています。 HoloLens では、音声認識はデバイス設定で構成された Windows 表示言語で常に機能します。
音声と視線入力
音声コマンドを使用している場合、頭または目の視線入力は、カーソルを使用して "選択" するか、見ているアプリケーションにコマンドをチャネル化するかに関係なく、一般的なターゲット設定メカニズムです。 任意の視線入力カーソルを表示する必要がない場合もあります ("それを参照してください、言う")。 一部の音声コマンドでは、"開始に移動" や "コルタナさん" など、ターゲットはまったく必要ありません。
デバイスのサポート
| 機能 | HoloLens (第 1 世代) | HoloLens 2 | イマーシブ ヘッドセット |
| 音声入力 | ✔️ | ✔️ | ✔️ (マイク付き) |
"select" コマンド
HoloLens (第 1 世代)
アプリに音声サポートを特に追加しなくても、ユーザーはシステム音声コマンド "select" を言うだけでホログラムをアクティブ化できます。 これは、HoloLens のエアー タップ、HoloLens クリッカーの選択ボタンの押下、またはWindows Mixed Realityモーション コントローラーのトリガーの押しと同じように動作します。 サウンドが聞こえて、"選択" が確認として表示されるツールヒントが表示されます。 「選択」は低電力キーワード (keyword)検出アルゴリズムによって有効になっています。つまり、バッテリ寿命への影響を最小限に抑えながらいつでも言うことができます。 手を横にして「選択」と言うことさえできます。
HoloLens 2
HoloLens 2で "select" 音声コマンドを使用するには、まず視線入力カーソルを起動してポインターとして使用する必要があります。 それを表示するコマンドは、覚えやすいです。"選択" と言うだけです。
モードを終了するには、エア タップ、指でボタンに近づく、またはシステム ジェスチャを使用して、もう一度手を使います。
画像: 音声コマンドを使用して選択を行う場合は、"select" と入力します
コルタナさん
いつでも Cortana を起動するには、"コルタナさん" と言うことができます。 あなたは彼女があなたの質問を続けるか、彼女に指示を与えるように見えるのを待つ必要はありません。 たとえば、1 つの文として "コルタナさん、天気はどうですか" と言ってみてください。 Cortana とできることの詳細については、彼女に問い合わせてください。 「コルタナさん、何を言えばいいですか」と言うと、彼女は作業と提案されたコマンドの一覧を引き出します。 Cortana アプリを既に使用している場合は、サイドバーの ? アイコンを選択して、この同じメニューをプルします。
HoloLens 固有のコマンド
- "何と言えますか?
- "スタートに移動" - ブルームの代わりにスタート メニューに移動します
- "launch <app>"
- "move <app> here"
- "写真を撮る"
- "記録を開始する"
- "記録を停止する"
- "ハンド レイを表示する"
- "ハンド レイを非表示にする"
- "明るさを上げる"
- "明るさを下げる"
- "ボリュームを増やす"
- "音量を下げる"
- "Mute" または "Unmute"
- "デバイスをシャットダウンする"
- "デバイスを再起動する"
- "スリープ状態に戻る"
- "何時ですか?
- "バッテリー残量はどれくらいですか?
"参照してください、それを言う"
HoloLens には、音声入力用の "表示、言う" モデルがあり、ボタンのラベルは、ユーザーに音声コマンドを伝えます。 たとえば、HoloLens (第 1 世代) のアプリ ウィンドウを見ると、ユーザーは "Adjust" コマンドを言って、アプリの世界での位置を調整できます。
画像: ユーザーは、アプリ バーに表示される "Adjust" コマンドを言って、アプリの位置を調整できます
アプリがこの規則に従うと、ユーザーはシステムを制御するために何を言えばいいかを簡単に理解できます。 HoloLens (第 1 世代) のボタンを見つめながら、ボタンが音声対応で"押す" コマンドを表示すると、1 秒後に表示される "音声ドウェル" ヒントが表示されます。 HoloLens 2で音声ヒントを表示するには、"選択" または "何が言えますか" と言って音声カーソルを表示します (画像を参照)。
画像: ボタンの下に "見て、言う" コマンドが表示されます
高速ホログラム操作のための音声コマンド
ホログラムを見つめながら、操作タスクをすばやく実行するために、多くの音声コマンドを使用できます。 これらの音声コマンドは、世界に配置したアプリ ウィンドウと 3D オブジェクトで動作します。
ホログラム操作コマンド
- 自分と向き合う
- 大きい |強化
- Smaller
HoloLens 2では、視線入力と組み合わせてより自然な相互作用を作成することもできます。これにより、参照している内容に関するコンテキスト情報が暗黙的に提供されます。 たとえば、ホログラムを見て「 これを置く」と言い、配置する場所を見て「 ここ」と言います。 または、複雑なマシン上のホログラフィック部分を見て、「 これについて詳しく知らせてください」と言うことができます。
音声コマンドの検出
上記の高速操作のコマンドなど、一部のコマンドは非表示にすることができます。 使用できるコマンドについて学習するには、オブジェクトを視線入力し、「何を言えばいいですか?」と言います。 使用可能なコマンドの一覧が表示されます。 また、頭の視線入力カーソルを使用して周囲を見回し、目の前にある各ボタンの音声ヒントを表示することもできます。
完全なリストが必要な場合は、いつでも "すべてのコマンドを表示" と言います。
ディクテーション
エアタップで入力するのではなく、音声ディクテーションを使用すると、アプリにテキストを入力する方が効率的です。 これにより、ユーザーの労力を減らすことで、入力を大幅に高速化できます。
音声ディクテーションは、キーボードのマイク ボタンを選択することから始まります
ホログラフィック キーボードがアクティブな場合は、入力の代わりにディクテーション モードに切り替えることができます。 テキスト入力ボックスの横にあるマイクを選択して開始します。
音声コマンドをアプリに追加する
ビルドしたエクスペリエンスに音声コマンドを追加することを検討してください。 音声は、システムとアプリを制御する強力な方法です。 ユーザーはさまざまな種類の方言やアクセントで話すので、音声キーワードを適切に選択すると、ユーザーのコマンドが明確に解釈されるようになります。
ベスト プラクティス
スムーズな音声認識に役立ついくつかのプラクティスを次に示します。
- 簡潔なコマンドを使用する - 可能な場合は、2 つ以上の音節のキーワードを選択します。 1 音節の単語は、異なるアクセントの人が話すときに異なる母音を使用する傾向があります。 例: "ビデオの再生" は、"現在選択されているビデオを再生する" よりも優れています
- 簡単なボキャブラリの使用 - 例: "メモの表示" は "プラカードの表示" よりも優れています
- コマンドが非破壊的であることを確認 する - 音声コマンドアクションが非破壊的であり、ユーザーの近くで話している別の人が誤ってコマンドをトリガーした場合に簡単に元に戻すことができることを確認します。
- 同様のサウンド コマンドを回避する - 似 たような音声コマンドを複数登録しないでください。 例: "Show more" と "Show store" は、同様のサウンドになる場合があります。
- アプリが使用されていないときに登録を解除 する - アプリが特定の音声コマンドが有効な状態になっていない場合は、他のコマンドが混乱しないように登録を解除することを検討してください。
- 異なるアクセントでテストする - 異なるアクセント のユーザーでアプリをテストします。
- 音声コマンドの整合性を維持する - "戻る" が前のページに移動した場合は、アプリケーションでこの動作を維持します。
-
システム コマンドの使用を避ける - 次の音声コマンドはシステム用に予約されているため、アプリケーションで使用しないでください。
- "コルタナさん"
- "選択"
- "開始に移動"
音声入力の利点
音声入力は、意図を伝える自然な方法です。 音声は、ユーザーがインターフェイスの複数のステップを切り取るのに役立つ可能性があるため、インターフェイス トラバーサル で特に優れている。 ユーザーが Web ページを見ているときに"戻る" と言う場合があります。アプリで戻るボタンを押す必要はありません。 この小さな時間の節約は、ユーザーのエクスペリエンスに対する認識に強力な 感情的な影響 を与え、少量の超大国を与えます。 音声の使用は、腕がいっぱいになっている場合や マルチタスクを行っている場合にも便利な入力方法です。 キーボードでの入力が困難なデバイスでは、 音声ディクテーション はテキストを入力するための効率的な代替手段となる可能性があります。 最後に、場合によっては、視線入力とジェスチャ の精度の範囲 が限られている場合、音声はユーザーの意図を明確に区別するのに役立ちます。
音声を使用してユーザーにメリットを提供する方法
- 時間を短縮する - 最終的な目標をより効率的にする必要があります。
- 作業を最小限に抑える - タスクをより流動的で簡単にする必要があります。
- コグニティブな負荷を軽減 - 直感的で学習しやすく、覚えやすいです。
- それは社会的に受け入れられる - それは社会の行動規範に適合する必要があります。
- それは日常的です - 音声はすぐに習慣的な行動になることができます。
音声入力の課題
音声入力はさまざまなアプリケーションに最適ですが、いくつかの課題にも直面しています。 音声入力の利点と課題の両方を理解することで、アプリ開発者は音声入力を使用する方法とタイミングをスマートに選択し、ユーザーに優れたエクスペリエンスを提供できます。
連続入力制御のための音声入力 きめ細かいコントロールもその 1 つです。 たとえば、ユーザーは自分の音楽アプリで音量を変更したい場合があります。 彼女は「大声で」と言うことができますが、システムが音量をどれくらい大きくするかは明らかではありません。 ユーザーは「少し大きくする」と言うことができますが、「少し」は定量化するのが難しいです。 音声によるホログラムの移動またはスケーリングも同様に困難です。
音声入力検出の信頼性 音声入力システムの方が良くなる一方で、音声コマンドの読み上げや解釈が間違っている場合があります。 重要なのは、アプリケーションの課題に対処することです。 システムがリッスンしているときにユーザーにフィードバックを提供し、システムが理解した内容によって、ユーザーの音声を理解する潜在的な問題が明らかになります。
共有スペースでの音声入力 他のユーザーと共有するスペースでは、音声が社会的に許容されない場合があります。 いくつかの例を示します。
- ユーザーが他のユーザーを邪魔したくない場合があります (静かなライブラリや共有オフィスなど)
- ユーザーは、人前で自分と話しているのを見られるのが気まずいと感じるかもしれません。
- ユーザーは、他のユーザーが聞いている間、個人的または機密のメッセージ (パスワードを含む) をディクテーションすることに不快感を感じる可能性があります
一意または不明な単語の音声入力 音声入力の難しさは、ユーザーがニックネーム、特定のスラングワード、省略形など、システムに不明な単語をディクテーションしている場合にも発生します。
音声コマンドの学習 最終的な目標は、システムと自然に会話することですが、多くの場合、アプリは特定の定義済みの音声コマンドに依存しています。 重要な音声コマンドのセットに関連する課題は、ユーザーをオーバーロードせずにそれらを教える方法と、ユーザーがそれらを維持するのに役立つ方法です。
音声フィードバックの状態
音声が適切に適用されると、ユーザーは何を言うことができるかを理解し、システムが正しく聞いた明確なフィードバックを得ます。 これら 2 つの信号により、ユーザーは音声をプライマリ入力として使用する自信を持ちます。 次の図は、音声入力が認識されたときのカーソルの動作と、それをユーザーに伝える方法を示す図です。
1. 通常のカーソル状態
2. 音声フィードバックを伝え、消える
3. 通常のカーソル状態に戻ります
Mixed Reality での "音声" についてユーザーが知っておくべきことの上位
- ボタンのターゲット設定中に "選択" と 言います (これを任意の場所で使用してボタンを選択できます)。
- 一部 のアプリでは、アプリ バー ボタンのラベル名 を指定してアクションを実行できます。 たとえば、アプリを見ている間に、ユーザーはコマンド "削除" を言ってアプリを世界から削除できます (これにより、手でアプリを選択する時間を節約できます)。
- 「コルタナさん」と言って 、Cortana のリスニングを開始できます。彼女に質問したり (「コルタナさん、エッフェル塔の高さ」)、アプリを開くように指示したり (「コルタナさん、Netflix を開く」)、スタート メニュー (「コルタナさん、家に帰ってください」) などを表示するように指示したりできます。
ユーザーが音声についてよく寄せられる質問と懸念事項
- 何も言えません。
- 操作方法システムが正しく私を聞いたことを知っていますか?
- システムが私の音声コマンドを間違え続けます。
- 音声コマンドを付けると反応しません。
- 私はそれを音声コマンドを与えるとき、それは間違った方法で反応します。
- 操作方法特定のアプリまたはアプリ コマンドに自分の音声をターゲットにしますか?
- 音声を使用して HoloLens のホログラフィック フレームをコマンドアウトできますか?
コミュニケーション
HoloLens によって提供されるカスタマイズされたオーディオ入力処理オプションを利用するアプリケーションの場合は、アプリで使用できるさまざまな オーディオ ストリーム カテゴリ を理解することが重要です。 Windows 10では、いくつかの異なるストリーム カテゴリがサポートされており、HoloLens では、これらの 3 つを使用して、音声、通信、その他に合わせて調整されたマイクオーディオ品質を最適化するカスタム処理を有効にします。これは、アンビエント環境のオーディオ キャプチャ (つまり、"ビデオカメラ") シナリオに使用できます。
- AudioCategory_Communications ストリーム カテゴリは、通話品質とナレーションのシナリオ用にカスタマイズされ、ユーザーの音声の 16 kHz 24 ビット モノラル オーディオ ストリームをクライアントに提供します
- AudioCategory_Speech ストリーム カテゴリは、HoloLens (Windows) 音声エンジン用にカスタマイズされ、ユーザーの音声の 16 kHz 24 ビット モノラル ストリームを提供します。 このカテゴリは、必要に応じてサード パーティ製の音声エンジンで使用できます。
- AudioCategory_Other ストリーム カテゴリは、アンビエント環境のオーディオ録音用にカスタマイズされ、クライアントに 48 kHz 24 ビットステレオ オーディオ ストリームを提供します。
このオーディオ処理はすべてハードウェアアクセラレーションであり、HoloLens CPU で同じ処理を行った場合よりもはるかに少ない電力を消費します。 CPU で他のオーディオ入力処理を実行しないようにして、システムのバッテリ寿命を最大化し、組み込みのオフロードされたオーディオ入力処理を利用します。
言語
HoloLens 2では、複数の言語がサポートされています。 複数のキーボードがインストールされている場合や、アプリが別の言語で音声認識エンジンを作成しようとした場合でも、音声コマンドは常にシステムの表示言語で実行されることに注意してください。
トラブルシューティング
"選択" と "コルタナさん" を使用して問題が発生した場合は、静かな空間に移動したり、ノイズの原因から離れたり、大きな声で話したりしてみてください。 現時点では、HoloLens のすべての音声認識が調整され、米国英語のネイティブ スピーカーに特化して最適化されます。
Windows Mixed Reality Developer Edition リリース 2017 の場合、オーディオ エンドポイント管理ロジックは、最初の HMD 接続後にログアウトして PC デスクトップに戻した後、正常に (永遠に) 動作します。 WMR OOBE を通過した後の最初のサインアウト/イン イベントの前に、ユーザーは、HMD を初めて接続する前にシステムのセットアップ方法に応じて、オーディオなしからオーディオ切り替えなしまで、さまざまなオーディオ機能の問題が発生する可能性があります。
Unityの MRTK (Mixed Reality ツールキット) の音声入力
MRTK を使用すると、任意のオブジェクトに音声コマンドを簡単に割り当てることができます。 MRTK の 音声入力プロファイル を使用して、キーワードを定義します。 SpeechInputHandler スクリプトを割り当てることで、任意のオブジェクトを Speech Input Profile で定義されたキーワードに応答させることができます。 SpeechInputHandler には、ユーザーの信頼度を向上させるための音声確認ラベルも用意されています。