音声認識と文字起こしを統合して使用する

完了

Speech Service は、音声テキスト変換、テキスト読み上げ、音声翻訳を 1 つの Azure サブスクリプションに統合したものです。 Speech CLI、Speech SDK、Speech Devices SDK、Speech Studio、または REST API を使用すると、アプリケーション、ツール、デバイスを簡単に音声で有効にすることができます。

音声認識

Speaker Recognition サービスは、音声バイメトリーを使用して、固有の音声特性によって話者を検証および識別するアルゴリズムを提供します。 これは、"誰が話しているのか" という質問に答えるために使用されます。まず、1 人の話者にオーディオ トレーニング データを提供します。このデータは、話者の音声の固有の特性に基づいて登録プロファイルを作成します。 その後、このプロファイルに対して音声音声サンプルをクロスチェックして、話者が同じ人物であることを確認するか (話者検証)、登録されている話者プロファイルのグループに対して音声音声サンプルをクロスチェックして、グループ内の任意のプロファイル (話者識別) と一致するかどうかを確認できます。 これに対し、Speaker Diarization ではバッチ操作を使用して、オーディオ ストリームを話者 ID 別にグループ化します。つまり、異なるスピーカーがそれぞれ独自のオーディオ セグメントを持つことになります。

テープ起こし

文字起こしは、ストレージ内のオーディオを文字起こしできる一連の REST API 操作です。 Shared Access Signatures (SAS) URI でオーディオ ファイルを示して、非同期に文字起こしの結果を受け取ることができます。

MRTK 音声コマンド

Windows Speech Input と同様に、音声入力プロバイダーはコントローラーを作成しませんが、認識されたときに音声入力イベントを発生させるキーワードを定義できます。 認識のキーワードは、入力システム プロファイルの音声コマンド プロファイルで構成します。 コマンドごとに、次のことも実行できます。

  • コマンドにマップする入力アクションを選択します。 この方法では、たとえば、両方を同じアクションにマッピングすることで、キーワード選択の効果をマウスの左クリックと同じにすることができます。
  • 押されたときに同じ音声イベントを生成するキー コードを指定します。
  • アプリ リソースからローカライズされたキーワードを取得するために UWP アプリで使用されるローカライズ キーを追加します。

Speech SDK

Speech ソフトウェア開発キット (SDK) では、音声対応アプリケーションの開発を支援するために、多くの音声サービス機能が公開されています。 Speech SDK は、多くのプログラミング言語と、すべてのプラットフォームで使用できます。 Speech SDK では、Speech サービスから多くの機能が公開されています (ただし、すべてではありません)。 Speech SDK の機能は、多くの場合、シナリオに関連付けられています。 Speech SDK は、ローカル デバイス、ファイル、Azure BLOB ストレージ、さらには入力ストリームと出力ストリームを使用する、リアルタイムおよび非リアルタイムのシナリオに最適です。 Speech SDK でシナリオを実現できない場合は、REST API の代替手段を探します。

空間認識

空間認識は、空間マッピング データへのプログラムによるアクセスを提供し、ユーザーの近くのアプリケーションで指定された空間領域のサーフェスに関する情報を Mixed Reality アプリに提供します。 空間認識機能は、アプリがこれらのサーフェス メッシュを明示的に使用する場合にのみ宣言します。 Mixed Reality アプリがユーザーの頭部姿勢に基づいてホログラフィック レンダリングを実行する場合、この機能は必要ありません。

インターネット クライアント サーバー

インターネット クライアント サーバーでは、アプリが受信ネットワーク接続をリッスンする必要があるピア ツー ピア (P2P) シナリオが可能になります。

プライベート ネットワーク クライアント サーバー

プライベート ネットワーク クライアント サーバーは、ファイアウォールを介してホーム ネットワークと職場ネットワークへの受信および送信アクセスを提供します。 通常、この機能は、ローカル エリア ネットワーク (LAN) を介して通信するゲームや、さまざまなローカル デバイス間でデータを共有するアプリに使用されます。