共用方式為


語音輸入

語音輸入

語音是 HoloLens 上的關鍵輸入形式之一。 它讓你能直接指揮全息影像,而不必使用 手勢。 語音輸入可以是自然表達意圖的方式。 語音特別擅長穿越複雜介面,因為它讓使用者只需一指令就能切過巢狀選單。

語音輸入由支援所有通用 Windows 應用程式語音的引擎驅動。 在 HoloLens 上,語音辨識總是以你裝置設定中設定的 Windows 顯示語言運作。


聲音與凝視

當你使用語音指令時,頭部或眼神凝視是典型的目標鎖定機制,無論是用游標「選擇」或將指令引導到你正在觀看的應用程式。 甚至可能不需要顯示任何凝視游標 (「看到它,說出來」) 。 有些語音指令根本不需要目標,例如「開始」或「嘿,Cortana」。

裝置支援

功能 HoloLens (第一代) HoloLens 2 沉浸式頭戴裝置
語音輸入 ✔️ ✔️ ✔️ (麥克風)

「select」指令

HoloLens (第一代)

即使沒有特別為你的應用程式加入語音支援,使用者只要說出系統語音指令「選擇」即可啟動全息影像。 這種行為就像在 HoloLens 上輕觸空氣、按下 HoloLens 點擊器的選擇鍵,或是按下 Windows Mixed Reality 動作控制器的扳機一樣。 你聽到聲音,並看到一個提示「選擇」作為確認。 低功耗的關鍵字偵測演算法啟用「select」功能,意味著你可以隨時說出,且電池續航影響極低。 你甚至可以雙手放在身側說「選擇」。



HoloLens 2

要在 HoloLens 2 中使用「選擇」語音指令,首先需要把凝視游標調出當作指標使用。 調出它的指令很容易記住——只要說「select」。

要退出模式,請再次用手輕觸空氣點擊、用手指接近按鈕,或使用系統手勢。

圖片:使用語音指令選擇時,請說「選擇」

使用者可以說「選擇」來使用語音指令來選擇。



嗨 Cortana

你可以隨時說「嘿,Cortana」來提起 Cortana。 你不必等Cortana出現後繼續問問題或給Cortana指令。 舉例來說,試著用一句話說「嘿 Cortana,天氣怎麼樣?」。 想了解更多關於 Cortana 的資訊以及你可以做什麼,請向 Cortana 詢問! 說「嘿 Cortana,我能說什麼呢?」Cortana 就會拉出一份可用的指令清單和建議指令。 如果你已經在 Cortana 應用程式裡,請在側邊欄點選 「? 」圖示,這樣就能調出同樣的選單。

HoloLens 專用指令

  • 「我能說什麼呢?」
  • 「前往開始」——而不是用 bloom 進入 開始選單
  • 「啟動 <應用程式>」
  • 「這裡有 Move <應用程式> 」
  • 「拍張照」
  • 「開始錄音」
  • 「停止錄音」
  • 「秀手光線」
  • 「藏手光線」
  • 「提高亮度」
  • 「降低亮度」
  • 「調大音量」
  • 「調低音量」
  • 「靜音」或「解除靜音」
  • 「關閉裝置」
  • 「重新啟動裝置」
  • 「去睡覺吧」
  • 「現在幾點了?」
  • 「我還剩多少電?」


「看見它,說出來」

HoloLens 有一種「看到它,說出來」的語音輸入模式,按鈕上的標籤告訴使用者可以說哪些語音指令。 例如,在第一代) Holo (Lens 中查看應用程式視窗時,使用者可以說出「調整」指令來調整該應用程式在世界中的位置。

圖片:使用者可以在應用程式列中看到「調整」指令,用來調整應用程式的位置

空間
當使用者在查看應用程式視窗或全息圖時,可以根據應用程式列中看到的「調整」指令,來調整該應用程式在世界中的位置


當應用程式遵循此規則時,使用者能輕鬆理解該說什麼來控制系統。 在第一代) (HoloLens 中盯著按鈕時,你會看到一個「語音停留」提示,若按鈕啟用語音,會顯示「說話」指令,並顯示「按下」的指令。 要在HoloLens 2中顯示語音提示,請透過「選擇」或「我能說什麼」來顯示語音游標 (查看圖片) 。

圖片:「看見它,說出來」指令顯示在按鈕下方

看到它,說它指令會出現在按鈕下方



快速操控全息影像的語音指令

你可以在凝視全息影像時說出許多語音指令,快速執行操控任務。 這些語音指令適用於應用程式視窗和你放置的 3D 物件。

全息操控指令

  • 面對我
  • 更大 |增強
  • Smaller

在 HoloLens 2 上,你也可以結合眼神凝視來創造更自然的互動,這隱含地提供你所指涉事物的上下文資訊。 舉例來說,你可以看全息影像說「放 這個」,然後看你想放的位置,再說「 放這裡」。 或者你可以看著複雜機器上的全息零件,說:「給我 更多相關資訊」。

發現語音指令

有些指令,例如文章中提到的快速操作指令,可以被隱藏。 要了解可以使用哪些指令,可以凝視一個物體,然後說:「我該說什麼呢?」 彈出一串可能的指令清單。 你也可以用頭部凝視游標環顧四周,並顯示每個按鈕的語音提示。

如果你想要完整清單,隨時說「顯示所有指令」。

聽寫

語音輸入比用 空中輕敲打字更有效率,方便輸入文字到應用程式中。 它大幅加速輸入,且使用者付出較少力氣。

語音輸入從選擇麥克風按鈕開始
語音輸入從鍵盤上的麥克風按鈕開始

只要全息鍵盤啟動,你就可以切換到語音輸入模式,而不是打字。 選擇文字輸入框側邊的麥克風即可開始。

在你的應用程式中加入語音指令

考慮在你打造的任何體驗中加入語音指令。 語音是控制系統和應用程式的強大方式。 由於使用者使用不同種類的方言和口音,正確選擇語音關鍵字能確保使用者的指令被明確理解。

最佳做法

以下的做法有助於平滑的語音辨識。

  • 使用簡潔的指令 ——如果可能,選擇兩個或以上音節的關鍵字。 單音節詞在不同口音的人說出時,往往會使用不同的元音音。 舉例來說:「播放影片」比「播放目前選擇的影片」更好。
  • 使用簡單詞彙 ——例如:「Show note」比「Show Placard 更好」
  • 確保指令是非破壞 性的——確保任何語音指令動作都是非破壞性的,且如果附近有其他人不小心觸發指令,也能輕易撤銷。
  • 避免使用聽起來相似的指令 ——避免同時註冊多個聽起來相似的語音指令。 舉例來說:「Show more」和「Show store」發音可能相似。
  • 應用程式沒有使用時取消註冊——當你的應用程式不在某個語音指令有效的狀態時,考慮取消註冊,避免其他指令誤認為該指令。
  • 測試不同口音——用 不同口音的使用者測試你的應用程式。
  • 維持語音指令一致性——如果「返回」會回到上一頁,請在應用程式中維持此行為。
  • 避免使用系統指令 ——以下語音指令為系統保留,請避免在您的應用程式中使用:
    • 「嘿,柯塔娜」
    • 「選擇」
    • 「開始吧」

語音輸入的優點

語音輸入是傳達我們意圖的自然方式。 語音在介面 穿梭 中特別出色,因為它能幫助使用者切入介面的多個步驟。 使用者可能在瀏覽網頁時說「返回」,而不必在應用程式中點擊返回鍵。 這種小小的節省時間對使用者的感受產生強烈的 情感影響 ,並賦予他們一點超能力。 當我們手忙腳亂或多 處理時,語音也是一種方便的輸入方式。 在鍵盤打字困難的裝置上, 語音語音輸入 可以成為輸入文字的有效替代方式。 最後,在某些情況下,當凝視與手勢的 準確度 有限時,語音可以幫助釐清使用者的意圖。

語音如何讓使用者受益

  • 這樣可以縮短時間——這應該會讓最終目標更有效率。
  • 減少工作量——應該讓工作更流暢且輕鬆。
  • 減輕認知負擔——直覺、容易學習且記憶力強。
  • 這是社會上可以接受的——應該符合社會行為規範。
  • 這是例行公事——聲音很容易變成習慣性行為。

語音輸入的挑戰

雖然語音輸入在許多不同應用中都很出色,但同時也面臨一些挑戰。 了解語音輸入的優點與挑戰,使應用程式開發者能更聰明地選擇何時以及如何使用語音輸入,並為用戶創造優質體驗。

語音輸入用於連續輸入控制 細緻控制就是其中之一。 例如,使用者可能想在音樂應用程式中調整音量。 使用者可以說「更大聲」,但系統到底要讓音量變大多少,並不清楚。 使用者可以說:「讓它大聲一點」,但「一點點」很難量化。 用語音移動或縮小全息影像同樣困難。

語音輸入偵測的可靠性 雖然語音輸入系統越來越好,但有時它們可能會錯誤地聽懂並解讀語音指令。 關鍵在於在申請中針對這個挑戰進行處理。 當系統正在聆聽時,向使用者提供回饋,並解釋系統理解的資訊,釐清理解使用者語音時可能出現的問題。

共享空間中的語音輸入 在與他人共享的空間中,發聲可能不被社會接受。 以下提供幾個範例:

  • 使用者可能不想打擾他人, (例如在安靜的圖書館或共用辦公室)
  • 使用者可能會覺得在公開場合自言自語會感到尷尬,
  • 使用者可能會感到不自在地口述包含密碼的個人或機密訊息 () 他人在聽

獨特或未知詞彙的語音輸入 當使用者口述系統不熟悉的詞彙時,語音輸入也會遇到困難,例如暱稱、某些俚語或縮寫。

學習語音指令 雖然最終目標是自然與系統對話,但應用程式通常仍依賴特定的預設語音指令。 對於大量語音指令的挑戰,是如何在不讓使用者過載的情況下學習這些指令,以及如何幫助使用者持續使用。



語音反饋狀態

當語音正確應用時,使用者能理解自己能說什麼,並獲得系統正確聽到的清晰回饋。 這兩個訊號讓使用者對使用語音作為主要輸入感到有信心。 下圖展示了當語音輸入被辨識時游標的反應,以及它如何與使用者溝通。

1. 規則游標狀態
1. 規則游標狀態

2. 傳達語音回饋後消失
2. 傳達語音回饋後消失

*3.規則游標狀態
3. 返回正常游標狀態




使用者應該知道的混合實境中「語音」重要事項

  • 在瞄準按鈕時說 「選擇」 (你可以在任何地方用它來選擇按鈕) 。
  • 你可以在某些應用程式中說出 應用程式列按鈕的標籤名稱 來執行動作。 例如,使用者在瀏覽應用程式時,可以輸入「移除」指令,將該應用程式從世界中移除, (這樣可以省去用手) 選取應用程式的時間。
  • 你可以先說 「嘿,Cortana」開始聽Cortana。 你可以問 Cortana 問題 (「嘿 Cortana,艾菲爾鐵塔有多高」) 、告訴 Cortana 開啟應用程式 (「He Cortana,打開 Netflix」) ,或叫 Cortana 打開開始選單 (「嘿 Cortana,帶我回家 ) 」等等。

使用者對語音的常見問題與疑慮

  • 我能說什麼呢?
  • 如何?知道系統是否正確聽到我的聲音?
    • 系統一直錯誤地輸入我的語音指令。
    • 當我給它語音指令時,它沒有反應。
  • 當我用語音指令給它時,它反應不對。
  • 如何?將我的聲音定位到特定的應用程式或應用程式指令?
  • 我可以用語音在全息畫面中指揮東西嗎?

通訊

對於想利用 HoloLens 提供的客製化音訊輸入處理選項的應用程式來說,了解應用程式可涵蓋的 各種音訊串流類別 非常重要。 Windows 10 支援多種不同的串流類別,HoloLens 利用其中三種類別來進行客製化處理,優化麥克風音訊品質,針對語音、通訊等需求量身打造,可用於環境環境音訊擷取 (即「攝影機」) 場景。

  • AudioCategory_Communications串流類別可依通話品質與旁白情境客製化,並提供用戶端16 kHz 24位元單聲道音訊串流
  • AudioCategory_Speech串流類別為 HoloLens (Windows) 語音引擎客製化,並提供使用者語音的 16 kHz 24 位元單聲道串流。 此類別由第三方語音引擎在需要時使用。
  • AudioCategory_Other串流類別專為環境環境音訊錄製客製化,為用戶端提供48 kHz 24位元立體聲音訊串流。

所有這些音訊處理皆以硬體加速,意味著功能耗電量遠低於在 HoloLens CPU 上進行相同處理。 避免在 CPU 上執行其他音訊輸入處理,以最大化系統電池續航,並善用內建的卸載音訊輸入處理功能。

語言

HoloLens 2 支援多種語言。 請記住,語音指令總是以系統的顯示語言執行,即使安裝了多個鍵盤,或應用程式嘗試用不同語言建立語音辨識器。

疑難排解

如果你在使用「選擇」和「嘿 Cortana」時遇到問題,試著移到較安靜的地方、背對聲音來源,或提高音量。 目前,HoloLens 上的所有語音辨識都針對美國英語母語者進行調校與優化。

在 2017 年Windows Mixed Reality開發者版中,音訊端點管理邏輯在登出並重新登入 PC 桌面後, (永遠都能正常運作,) 在初次 HMD 連線後。 在經過 WMR OOBE 後的首次登出/登入事件之前,使用者可能會遇到各種音訊功能問題,從無音訊到無音訊切換,視系統在首次連接 HMD 前的設定而定。



MRTK (Mixed Reality Toolkit for Unity 中的語音輸入)

使用 MRTK,你可以輕鬆地對任何物件指派語音指令。 使用 MRTK 的 語音輸入設定檔 來定義你的關鍵字。 透過指派 SpeechInputHandler 腳本,你可以讓任何物件回應語音輸入設定檔中定義的關鍵字。 SpeechInputHandler 也提供語音確認標籤,以提升使用者的信心。


另請參閱