語音輸入

語音是 HoloLens 上的關鍵輸入形式之一。它讓你能直接指揮全息影像，而不必使用手勢。語音輸入可以是自然表達意圖的方式。語音特別擅長穿越複雜介面，因為它讓使用者只需一指令就能切過巢狀選單。

語音輸入由支援所有通用 Windows 應用程式語音的引擎驅動。在 HoloLens 上，語音辨識總是以你裝置設定中設定的 Windows 顯示語言運作。

聲音與凝視

當你使用語音指令時，頭部或眼神凝視是典型的目標鎖定機制，無論是用游標「選擇」或將指令引導到你正在觀看的應用程式。甚至可能不需要顯示任何凝視游標 (「看到它，說出來」) 。有些語音指令根本不需要目標，例如「開始」或「嘿，Cortana」。

裝置支援

功能	HoloLens (第一代)	HoloLens 2	沉浸式頭戴裝置
語音輸入	✔️	✔️	✔️ (麥克風)

「select」指令

HoloLens (第一代)

即使沒有特別為你的應用程式加入語音支援，使用者只要說出系統語音指令「選擇」即可啟動全息影像。這種行為就像在 HoloLens 上輕觸空氣、按下 HoloLens 點擊器的選擇鍵，或是按下 Windows Mixed Reality 動作控制器的扳機一樣。你聽到聲音，並看到一個提示「選擇」作為確認。低功耗的關鍵字偵測演算法啟用「select」功能，意味著你可以隨時說出，且電池續航影響極低。你甚至可以雙手放在身側說「選擇」。

HoloLens 2

要在 HoloLens 2 中使用「選擇」語音指令，首先需要把凝視游標調出當作指標使用。調出它的指令很容易記住——只要說「select」。

要退出模式，請再次用手輕觸空氣點擊、用手指接近按鈕，或使用系統手勢。

圖片：使用語音指令選擇時，請說「選擇」

使用者可以說「選擇」來使用語音指令來選擇。

嗨 Cortana

你可以隨時說「嘿，Cortana」來提起 Cortana。你不必等Cortana出現後繼續問問題或給Cortana指令。舉例來說，試著用一句話說「嘿 Cortana，天氣怎麼樣？」。想了解更多關於 Cortana 的資訊以及你可以做什麼，請向 Cortana 詢問！說「嘿 Cortana，我能說什麼呢？」Cortana 就會拉出一份可用的指令清單和建議指令。如果你已經在 Cortana 應用程式裡，請在側邊欄點選「？」圖示，這樣就能調出同樣的選單。

HoloLens 專用指令

「我能說什麼呢？」
「前往開始」——而不是用 bloom 進入開始選單
「啟動 <應用程式>」
「這裡有 Move <應用程式> 」
「拍張照」
「開始錄音」
「停止錄音」
「秀手光線」
「藏手光線」
「提高亮度」
「降低亮度」
「調大音量」
「調低音量」
「靜音」或「解除靜音」
「關閉裝置」
「重新啟動裝置」
「去睡覺吧」
「現在幾點了？」
「我還剩多少電？」

「看見它，說出來」

HoloLens 有一種「看到它，說出來」的語音輸入模式，按鈕上的標籤告訴使用者可以說哪些語音指令。例如，在第一代) Holo (Lens 中查看應用程式視窗時，使用者可以說出「調整」指令來調整該應用程式在世界中的位置。

圖片：使用者可以在應用程式列中看到「調整」指令，用來調整應用程式的位置

當使用者在查看應用程式視窗或全息圖時，可以根據應用程式列中看到的「調整」指令，來調整該應用程式在世界中的位置

當應用程式遵循此規則時，使用者能輕鬆理解該說什麼來控制系統。在第一代) (HoloLens 中盯著按鈕時，你會看到一個「語音停留」提示，若按鈕啟用語音，會顯示「說話」指令，並顯示「按下」的指令。要在HoloLens 2中顯示語音提示，請透過「選擇」或「我能說什麼」來顯示語音游標 (查看圖片) 。

圖片：「看見它，說出來」指令顯示在按鈕下方

看到它，說它指令會出現在按鈕下方

快速操控全息影像的語音指令

你可以在凝視全息影像時說出許多語音指令，快速執行操控任務。這些語音指令適用於應用程式視窗和你放置的 3D 物件。

全息操控指令

面對我
更大 |增強
Smaller

在 HoloLens 2 上，你也可以結合眼神凝視來創造更自然的互動，這隱含地提供你所指涉事物的上下文資訊。舉例來說，你可以看全息影像說「放這個」，然後看你想放的位置，再說「 放這裡」。或者你可以看著複雜機器上的全息零件，說：「給我 更多相關資訊」。

發現語音指令

有些指令，例如文章中提到的快速操作指令，可以被隱藏。要了解可以使用哪些指令，可以凝視一個物體，然後說：「我該說什麼呢？」彈出一串可能的指令清單。你也可以用頭部凝視游標環顧四周，並顯示每個按鈕的語音提示。

如果你想要完整清單，隨時說「顯示所有指令」。

聽寫

語音輸入比用空中輕敲打字更有效率，方便輸入文字到應用程式中。它大幅加速輸入，且使用者付出較少力氣。

語音輸入從選擇麥克風按鈕開始
語音輸入從鍵盤上的麥克風按鈕開始

只要全息鍵盤啟動，你就可以切換到語音輸入模式，而不是打字。選擇文字輸入框側邊的麥克風即可開始。

在你的應用程式中加入語音指令

考慮在你打造的任何體驗中加入語音指令。語音是控制系統和應用程式的強大方式。由於使用者使用不同種類的方言和口音，正確選擇語音關鍵字能確保使用者的指令被明確理解。

最佳做法

以下的做法有助於平滑的語音辨識。

使用簡潔的指令 ——如果可能，選擇兩個或以上音節的關鍵字。單音節詞在不同口音的人說出時，往往會使用不同的元音音。舉例來說：「播放影片」比「播放目前選擇的影片」更好。
使用簡單詞彙 ——例如：「Show note」比「Show Placard 更好」
確保指令是非破壞 性的——確保任何語音指令動作都是非破壞性的，且如果附近有其他人不小心觸發指令，也能輕易撤銷。
避免使用聽起來相似的指令 ——避免同時註冊多個聽起來相似的語音指令。舉例來說：「Show more」和「Show store」發音可能相似。
當應用程式沒有使用時取消註冊——當你的應用程式不在某個語音指令有效的狀態時，考慮取消註冊，避免其他指令誤認為該指令。
測試不同口音——用 不同口音的使用者測試你的應用程式。
維持語音指令一致性——如果「返回」會回到上一頁，請在應用程式中維持此行為。
避免使用系統指令 ——以下語音指令為系統保留，請避免在您的應用程式中使用：
- 「嘿，柯塔娜」
- 「選擇」
- 「開始吧」

語音輸入的優點

語音輸入是傳達我們意圖的自然方式。語音在介面穿梭中特別出色，因為它能幫助使用者切入介面的多個步驟。使用者可能在瀏覽網頁時說「返回」，而不必在應用程式中點擊返回鍵。這種小小的節省時間對使用者的感受產生強烈的 情感影響 ，並賦予他們一點超能力。當我們手忙腳亂或多工處理時，語音也是一種方便的輸入方式。在鍵盤打字困難的裝置上， 語音語音輸入 可以成為輸入文字的有效替代方式。最後，在某些情況下，當凝視與手勢的 準確度 有限時，語音可以幫助釐清使用者的意圖。

語音如何讓使用者受益

這樣可以縮短時間——這應該會讓最終目標更有效率。
減少工作量——應該讓工作更流暢且輕鬆。
減輕認知負擔——直覺、容易學習且記憶力強。
這是社會上可以接受的——應該符合社會行為規範。
這是例行公事——聲音很容易變成習慣性行為。

語音輸入的挑戰

雖然語音輸入在許多不同應用中都很出色，但同時也面臨一些挑戰。了解語音輸入的優點與挑戰，使應用程式開發者能更聰明地選擇何時以及如何使用語音輸入，並為用戶創造優質體驗。

語音輸入用於連續輸入控制 細緻控制就是其中之一。例如，使用者可能想在音樂應用程式中調整音量。使用者可以說「更大聲」，但系統到底要讓音量變大多少，並不清楚。使用者可以說：「讓它大聲一點」，但「一點點」很難量化。用語音移動或縮小全息影像同樣困難。

語音輸入偵測的可靠性 雖然語音輸入系統越來越好，但有時它們可能會錯誤地聽懂並解讀語音指令。關鍵在於在申請中針對這個挑戰進行處理。當系統正在聆聽時，向使用者提供回饋，並解釋系統理解的資訊，釐清理解使用者語音時可能出現的問題。

共享空間中的語音輸入 在與他人共享的空間中，發聲可能不被社會接受。以下提供幾個範例：

使用者可能不想打擾他人， (例如在安靜的圖書館或共用辦公室)
使用者可能會覺得在公開場合自言自語會感到尷尬，
使用者可能會感到不自在地口述包含密碼的個人或機密訊息 () 他人在聽

獨特或未知詞彙的語音輸入 當使用者口述系統不熟悉的詞彙時，語音輸入也會遇到困難，例如暱稱、某些俚語或縮寫。

學習語音指令 雖然最終目標是自然與系統對話，但應用程式通常仍依賴特定的預設語音指令。對於大量語音指令的挑戰，是如何在不讓使用者過載的情況下學習這些指令，以及如何幫助使用者持續使用。

語音反饋狀態

當語音正確應用時，使用者能理解自己能說什麼，並獲得系統正確聽到的清晰回饋。這兩個訊號讓使用者對使用語音作為主要輸入感到有信心。下圖展示了當語音輸入被辨識時游標的反應，以及它如何與使用者溝通。

1. 規則游標狀態

2. 傳達語音回饋後消失

*3.規則游標狀態
3. 返回正常游標狀態

使用者應該知道的混合實境中「語音」重要事項

在瞄準按鈕時說 「選擇」 (你可以在任何地方用它來選擇按鈕) 。
你可以在某些應用程式中說出 應用程式列按鈕的標籤名稱 來執行動作。例如，使用者在瀏覽應用程式時，可以輸入「移除」指令，將該應用程式從世界中移除， (這樣可以省去用手) 選取應用程式的時間。
你可以先說 「嘿，Cortana」開始聽Cortana。 你可以問 Cortana 問題 (「嘿 Cortana，艾菲爾鐵塔有多高」) 、告訴 Cortana 開啟應用程式 (「He Cortana，打開 Netflix」) ，或叫 Cortana 打開開始選單 (「嘿 Cortana，帶我回家 ) 」等等。

使用者對語音的常見問題與疑慮

我能說什麼呢？
如何？知道系統是否正確聽到我的聲音？
- 系統一直錯誤地輸入我的語音指令。
- 當我給它語音指令時，它沒有反應。
當我用語音指令給它時，它反應不對。
如何？將我的聲音定位到特定的應用程式或應用程式指令？
我可以用語音在全息畫面中指揮東西嗎？

通訊

對於想利用 HoloLens 提供的客製化音訊輸入處理選項的應用程式來說，了解應用程式可涵蓋的各種音訊串流類別非常重要。 Windows 10 支援多種不同的串流類別，HoloLens 利用其中三種類別來進行客製化處理，優化麥克風音訊品質，針對語音、通訊等需求量身打造，可用於環境環境音訊擷取 (即「攝影機」) 場景。

AudioCategory_Communications串流類別可依通話品質與旁白情境客製化，並提供用戶端16 kHz 24位元單聲道音訊串流
AudioCategory_Speech串流類別為 HoloLens (Windows) 語音引擎客製化，並提供使用者語音的 16 kHz 24 位元單聲道串流。此類別由第三方語音引擎在需要時使用。
AudioCategory_Other串流類別專為環境環境音訊錄製客製化，為用戶端提供48 kHz 24位元立體聲音訊串流。

所有這些音訊處理皆以硬體加速，意味著功能耗電量遠低於在 HoloLens CPU 上進行相同處理。避免在 CPU 上執行其他音訊輸入處理，以最大化系統電池續航，並善用內建的卸載音訊輸入處理功能。

語言

HoloLens 2 支援多種語言。請記住，語音指令總是以系統的顯示語言執行，即使安裝了多個鍵盤，或應用程式嘗試用不同語言建立語音辨識器。

疑難排解

如果你在使用「選擇」和「嘿 Cortana」時遇到問題，試著移到較安靜的地方、背對聲音來源，或提高音量。目前，HoloLens 上的所有語音辨識都針對美國英語母語者進行調校與優化。

在 2017 年Windows Mixed Reality開發者版中，音訊端點管理邏輯在登出並重新登入 PC 桌面後， (永遠都能正常運作，) 在初次 HMD 連線後。在經過 WMR OOBE 後的首次登出/登入事件之前，使用者可能會遇到各種音訊功能問題，從無音訊到無音訊切換，視系統在首次連接 HMD 前的設定而定。

MRTK (Mixed Reality Toolkit for Unity 中的語音輸入)

使用 MRTK，你可以輕鬆地對任何物件指派語音指令。使用 MRTK 的 語音輸入設定檔 來定義你的關鍵字。透過指派 SpeechInputHandler 腳本，你可以讓任何物件回應語音輸入設定檔中定義的關鍵字。 SpeechInputHandler 也提供語音確認標籤，以提升使用者的信心。

MRTK - 語音指令

另請參閱

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-01-06