語音是 HoloLens 上的關鍵輸入形式之一。 它讓你能直接指揮全息影像,而不必使用 手勢。 語音輸入可以是自然表達意圖的方式。 語音特別擅長穿越複雜介面,因為它讓使用者只需一指令就能切過巢狀選單。
語音輸入由支援所有通用 Windows 應用程式語音的引擎驅動。 在 HoloLens 上,語音辨識總是以你裝置設定中設定的 Windows 顯示語言運作。
聲音與凝視
當你使用語音指令時,頭部或眼神凝視是典型的目標鎖定機制,無論是用游標「選擇」或將指令引導到你正在觀看的應用程式。 甚至可能不需要顯示任何凝視游標 (「看到它,說出來」) 。 有些語音指令根本不需要目標,例如「開始」或「嘿,Cortana」。
裝置支援
| 功能 | HoloLens (第一代) | HoloLens 2 | 沉浸式頭戴裝置 |
| 語音輸入 | ✔️ | ✔️ | ✔️ (麥克風) |
「select」指令
HoloLens (第一代)
即使沒有特別為你的應用程式加入語音支援,使用者只要說出系統語音指令「選擇」即可啟動全息影像。 這種行為就像在 HoloLens 上輕觸空氣、按下 HoloLens 點擊器的選擇鍵,或是按下 Windows Mixed Reality 動作控制器的扳機一樣。 你聽到聲音,並看到一個提示「選擇」作為確認。 低功耗的關鍵字偵測演算法啟用「select」功能,意味著你可以隨時說出,且電池續航影響極低。 你甚至可以雙手放在身側說「選擇」。
HoloLens 2
要在 HoloLens 2 中使用「選擇」語音指令,首先需要把凝視游標調出當作指標使用。 調出它的指令很容易記住——只要說「select」。
要退出模式,請再次用手輕觸空氣點擊、用手指接近按鈕,或使用系統手勢。
圖片:使用語音指令選擇時,請說「選擇」
嗨 Cortana
你可以隨時說「嘿,Cortana」來提起 Cortana。 你不必等Cortana出現後繼續問問題或給Cortana指令。 舉例來說,試著用一句話說「嘿 Cortana,天氣怎麼樣?」。 想了解更多關於 Cortana 的資訊以及你可以做什麼,請向 Cortana 詢問! 說「嘿 Cortana,我能說什麼呢?」Cortana 就會拉出一份可用的指令清單和建議指令。 如果你已經在 Cortana 應用程式裡,請在側邊欄點選 「? 」圖示,這樣就能調出同樣的選單。
HoloLens 專用指令
- 「我能說什麼呢?」
- 「前往開始」——而不是用 bloom 進入 開始選單
- 「啟動 <應用程式>」
- 「這裡有 Move <應用程式> 」
- 「拍張照」
- 「開始錄音」
- 「停止錄音」
- 「秀手光線」
- 「藏手光線」
- 「提高亮度」
- 「降低亮度」
- 「調大音量」
- 「調低音量」
- 「靜音」或「解除靜音」
- 「關閉裝置」
- 「重新啟動裝置」
- 「去睡覺吧」
- 「現在幾點了?」
- 「我還剩多少電?」
「看見它,說出來」
HoloLens 有一種「看到它,說出來」的語音輸入模式,按鈕上的標籤告訴使用者可以說哪些語音指令。 例如,在第一代) Holo (Lens 中查看應用程式視窗時,使用者可以說出「調整」指令來調整該應用程式在世界中的位置。
圖片:使用者可以在應用程式列中看到「調整」指令,用來調整應用程式的位置
當應用程式遵循此規則時,使用者能輕鬆理解該說什麼來控制系統。 在第一代) (HoloLens 中盯著按鈕時,你會看到一個「語音停留」提示,若按鈕啟用語音,會顯示「說話」指令,並顯示「按下」的指令。 要在HoloLens 2中顯示語音提示,請透過「選擇」或「我能說什麼」來顯示語音游標 (查看圖片) 。
圖片:「看見它,說出來」指令顯示在按鈕下方
快速操控全息影像的語音指令
你可以在凝視全息影像時說出許多語音指令,快速執行操控任務。 這些語音指令適用於應用程式視窗和你放置的 3D 物件。
全息操控指令
- 面對我
- 更大 |增強
- Smaller
在 HoloLens 2 上,你也可以結合眼神凝視來創造更自然的互動,這隱含地提供你所指涉事物的上下文資訊。 舉例來說,你可以看全息影像說「放 這個」,然後看你想放的位置,再說「 放這裡」。 或者你可以看著複雜機器上的全息零件,說:「給我 更多相關資訊」。
發現語音指令
有些指令,例如文章中提到的快速操作指令,可以被隱藏。 要了解可以使用哪些指令,可以凝視一個物體,然後說:「我該說什麼呢?」 彈出一串可能的指令清單。 你也可以用頭部凝視游標環顧四周,並顯示每個按鈕的語音提示。
如果你想要完整清單,隨時說「顯示所有指令」。
聽寫
語音輸入比用 空中輕敲打字更有效率,方便輸入文字到應用程式中。 它大幅加速輸入,且使用者付出較少力氣。
語音輸入從鍵盤上的麥克風按鈕開始
只要全息鍵盤啟動,你就可以切換到語音輸入模式,而不是打字。 選擇文字輸入框側邊的麥克風即可開始。
在你的應用程式中加入語音指令
考慮在你打造的任何體驗中加入語音指令。 語音是控制系統和應用程式的強大方式。 由於使用者使用不同種類的方言和口音,正確選擇語音關鍵字能確保使用者的指令被明確理解。
最佳做法
以下的做法有助於平滑的語音辨識。
- 使用簡潔的指令 ——如果可能,選擇兩個或以上音節的關鍵字。 單音節詞在不同口音的人說出時,往往會使用不同的元音音。 舉例來說:「播放影片」比「播放目前選擇的影片」更好。
- 使用簡單詞彙 ——例如:「Show note」比「Show Placard 更好」
- 確保指令是非破壞 性的——確保任何語音指令動作都是非破壞性的,且如果附近有其他人不小心觸發指令,也能輕易撤銷。
- 避免使用聽起來相似的指令 ——避免同時註冊多個聽起來相似的語音指令。 舉例來說:「Show more」和「Show store」發音可能相似。
- 當應用程式沒有使用時取消註冊——當你的應用程式不在某個語音指令有效的狀態時,考慮取消註冊,避免其他指令誤認為該指令。
- 測試不同口音——用 不同口音的使用者測試你的應用程式。
- 維持語音指令一致性——如果「返回」會回到上一頁,請在應用程式中維持此行為。
-
避免使用系統指令 ——以下語音指令為系統保留,請避免在您的應用程式中使用:
- 「嘿,柯塔娜」
- 「選擇」
- 「開始吧」
語音輸入的優點
語音輸入是傳達我們意圖的自然方式。 語音在介面 穿梭 中特別出色,因為它能幫助使用者切入介面的多個步驟。 使用者可能在瀏覽網頁時說「返回」,而不必在應用程式中點擊返回鍵。 這種小小的節省時間對使用者的感受產生強烈的 情感影響 ,並賦予他們一點超能力。 當我們手忙腳亂或多 工處理時,語音也是一種方便的輸入方式。 在鍵盤打字困難的裝置上, 語音語音輸入 可以成為輸入文字的有效替代方式。 最後,在某些情況下,當凝視與手勢的 準確度 有限時,語音可以幫助釐清使用者的意圖。
語音如何讓使用者受益
- 這樣可以縮短時間——這應該會讓最終目標更有效率。
- 減少工作量——應該讓工作更流暢且輕鬆。
- 減輕認知負擔——直覺、容易學習且記憶力強。
- 這是社會上可以接受的——應該符合社會行為規範。
- 這是例行公事——聲音很容易變成習慣性行為。
語音輸入的挑戰
雖然語音輸入在許多不同應用中都很出色,但同時也面臨一些挑戰。 了解語音輸入的優點與挑戰,使應用程式開發者能更聰明地選擇何時以及如何使用語音輸入,並為用戶創造優質體驗。
語音輸入用於連續輸入控制 細緻控制就是其中之一。 例如,使用者可能想在音樂應用程式中調整音量。 使用者可以說「更大聲」,但系統到底要讓音量變大多少,並不清楚。 使用者可以說:「讓它大聲一點」,但「一點點」很難量化。 用語音移動或縮小全息影像同樣困難。
語音輸入偵測的可靠性 雖然語音輸入系統越來越好,但有時它們可能會錯誤地聽懂並解讀語音指令。 關鍵在於在申請中針對這個挑戰進行處理。 當系統正在聆聽時,向使用者提供回饋,並解釋系統理解的資訊,釐清理解使用者語音時可能出現的問題。
共享空間中的語音輸入 在與他人共享的空間中,發聲可能不被社會接受。 以下提供幾個範例:
- 使用者可能不想打擾他人, (例如在安靜的圖書館或共用辦公室)
- 使用者可能會覺得在公開場合自言自語會感到尷尬,
- 使用者可能會感到不自在地口述包含密碼的個人或機密訊息 () 他人在聽
獨特或未知詞彙的語音輸入 當使用者口述系統不熟悉的詞彙時,語音輸入也會遇到困難,例如暱稱、某些俚語或縮寫。
學習語音指令 雖然最終目標是自然與系統對話,但應用程式通常仍依賴特定的預設語音指令。 對於大量語音指令的挑戰,是如何在不讓使用者過載的情況下學習這些指令,以及如何幫助使用者持續使用。
語音反饋狀態
當語音正確應用時,使用者能理解自己能說什麼,並獲得系統正確聽到的清晰回饋。 這兩個訊號讓使用者對使用語音作為主要輸入感到有信心。 下圖展示了當語音輸入被辨識時游標的反應,以及它如何與使用者溝通。
1. 規則游標狀態
2. 傳達語音回饋後消失
3. 返回正常游標狀態
使用者應該知道的混合實境中「語音」重要事項
- 在瞄準按鈕時說 「選擇」 (你可以在任何地方用它來選擇按鈕) 。
- 你可以在某些應用程式中說出 應用程式列按鈕的標籤名稱 來執行動作。 例如,使用者在瀏覽應用程式時,可以輸入「移除」指令,將該應用程式從世界中移除, (這樣可以省去用手) 選取應用程式的時間。
- 你可以先說 「嘿,Cortana」開始聽Cortana。 你可以問 Cortana 問題 (「嘿 Cortana,艾菲爾鐵塔有多高」) 、告訴 Cortana 開啟應用程式 (「He Cortana,打開 Netflix」) ,或叫 Cortana 打開開始選單 (「嘿 Cortana,帶我回家 ) 」等等。
使用者對語音的常見問題與疑慮
- 我能說什麼呢?
- 如何?知道系統是否正確聽到我的聲音?
- 系統一直錯誤地輸入我的語音指令。
- 當我給它語音指令時,它沒有反應。
- 當我用語音指令給它時,它反應不對。
- 如何?將我的聲音定位到特定的應用程式或應用程式指令?
- 我可以用語音在全息畫面中指揮東西嗎?
通訊
對於想利用 HoloLens 提供的客製化音訊輸入處理選項的應用程式來說,了解應用程式可涵蓋的 各種音訊串流類別 非常重要。 Windows 10 支援多種不同的串流類別,HoloLens 利用其中三種類別來進行客製化處理,優化麥克風音訊品質,針對語音、通訊等需求量身打造,可用於環境環境音訊擷取 (即「攝影機」) 場景。
- AudioCategory_Communications串流類別可依通話品質與旁白情境客製化,並提供用戶端16 kHz 24位元單聲道音訊串流
- AudioCategory_Speech串流類別為 HoloLens (Windows) 語音引擎客製化,並提供使用者語音的 16 kHz 24 位元單聲道串流。 此類別由第三方語音引擎在需要時使用。
- AudioCategory_Other串流類別專為環境環境音訊錄製客製化,為用戶端提供48 kHz 24位元立體聲音訊串流。
所有這些音訊處理皆以硬體加速,意味著功能耗電量遠低於在 HoloLens CPU 上進行相同處理。 避免在 CPU 上執行其他音訊輸入處理,以最大化系統電池續航,並善用內建的卸載音訊輸入處理功能。
語言
HoloLens 2 支援多種語言。 請記住,語音指令總是以系統的顯示語言執行,即使安裝了多個鍵盤,或應用程式嘗試用不同語言建立語音辨識器。
疑難排解
如果你在使用「選擇」和「嘿 Cortana」時遇到問題,試著移到較安靜的地方、背對聲音來源,或提高音量。 目前,HoloLens 上的所有語音辨識都針對美國英語母語者進行調校與優化。
在 2017 年Windows Mixed Reality開發者版中,音訊端點管理邏輯在登出並重新登入 PC 桌面後, (永遠都能正常運作,) 在初次 HMD 連線後。 在經過 WMR OOBE 後的首次登出/登入事件之前,使用者可能會遇到各種音訊功能問題,從無音訊到無音訊切換,視系統在首次連接 HMD 前的設定而定。
MRTK (Mixed Reality Toolkit for Unity 中的語音輸入)
使用 MRTK,你可以輕鬆地對任何物件指派語音指令。 使用 MRTK 的 語音輸入設定檔 來定義你的關鍵字。 透過指派 SpeechInputHandler 腳本,你可以讓任何物件回應語音輸入設定檔中定義的關鍵字。 SpeechInputHandler 也提供語音確認標籤,以提升使用者的信心。