この記事では、Foundry Tools の Azure Content Understanding の価格モデルと、明確な例とコストの内訳について説明します。 課金対象と、ワークロードのコストを見積もる方法について説明します。
特定の価格レートについては、 Azure Content Understanding の価格に関するページを参照してください。
2 種類の料金について
Azure Content Understanding の価格は、次の 2 つの主な使用カテゴリに基づいています。
1. コンテンツ抽出料金
コンテンツ抽出は、非構造化入力 (ドキュメント、オーディオ、ビデオ) を構造化された検索可能なテキストとコンテンツに変換します。 この出力には、ドキュメントの光学式文字認識 (OCR)、音声/ビデオ用の音声テキスト変換、レイアウト検出が含まれます。 処理された入力ユニットごとに支払います。
- ドキュメント: 1,000 ページあたり
- オーディオとビデオ: 1 分あたり
2. 生成機能の料金
大規模な言語モデル (LLM) を呼び出す AI を利用した機能を使用すると、次の 2 種類の料金が発生します。
- コンテキスト化の料金: コンテキストの準備、信頼度スコアの生成、ソースの接地、出力の書式設定。 詳細については、「 コンテキスト化トークン」を参照してください。
- 生成モデルの料金: Microsoft Foundry モデルデプロイからのトークンベースのコスト (生成用の LLM、トレーニング例用の埋め込み)。 Content Understanding では、生成AI関連のすべての呼び出しに対して提供されるFoundryモデルデプロイが使用されます。 Content Understanding に LLM または埋め込みトークン使用量の課金は表示されません。その使用量は Foundry モデルのデプロイに表示されます。 詳細については、「 生成モデルの料金」を参照してください。
生成機能には、フィールド抽出、図分析、セグメント化、分類、トレーニングが含まれます。
コスト方程式
Content Understanding アナライザーを実行するための合計コストは、次の式に従います。
Total Cost = Content Extraction + Contextualization Tokens + LLM Input Tokens + LLM Output Tokens + Embeddings Tokens
生成機能なしでコンテンツ抽出のみを使用する場合は、コンテンツ抽出に対してのみ課金されます。 生成機能を使用する場合は、該当するすべての料金が適用されます。
コストを見積もる方法
1. 代表的なファイルでテストする
実際のファイルとスキーマを使用して、小規模なテスト分析を実行します。 Analyzers API 応答の usage オブジェクトを調べて、実際のトークン消費量を確認します。
"usage": {
"documentPagesMinimal": 0, // Pages processed at the minimal level (i.e. txt, xlsx, html, and other digital file types)
"documentPagesBasic": 0, // Pages processed at the basic level (i.e. read)
"documentPagesStandard": 2, // Pages processed at the standard level (i.e. layout)
"contextualizationToken": 2000,
"tokens": {
"gpt-4.1-input": 10400,
"gpt-4.1-output": 360,
}
}
2. Azure 料金計算ツールを使用する
Azure 料金計算ツールで Content Understanding を検索し、設定を構成します。
- 電卓に "Content Understanding" を追加する
- 手順 1 のテスト結果を使用して、ページ単位または分単位のトークン平均を計算します
- リージョン、 ファイルの種類、予想されるボリューム、モデルのデプロイと共にトークン数を入力する
計算ツールは、ワークロードの正確なコスト予測を提供します。
料金設定の例: 請求書フィールドの抽出
見積もりアプローチに従って、コストの計算方法を示すために、具体的な例を手動で見てみましょう。 請求書を処理して、仕入先名、請求書番号、合計金額、明細などの構造化データを抽出します。
シナリオ: ソースの接地と信頼度スコアが無効になっている GPT-4o-mini を使用して、1,000 個の請求書ページを処理する必要があります。
手順 1: 代表的なファイルを使用してテストする 代表的なファイルをテストした後、ページあたりの平均トークン使用量は次のようになります。
- 入力トークン: 1 ページあたり 1,100
- 出力トークン: 1 ページあたり 60
- コンテキスト化: 1 ページあたり 1,000 トークン (固定レート)
1,000 ページの場合、合計は次のようになります。
- 合計入力トークン: 1,000 ページ× 1,100 = 1,100,000 トークン
- 合計出力トークン: 1,000 ページ× 60 = 60,000 トークン
- コンテキスト化トークンの合計数: 1,000 ページ× 1,000 = 1,000,000 トークン
手順 2: コストを手動で計算する (料金計算ツールを使用する代わりに) GPT-4o-mini グローバル 展開を使用して、次の価格を前提とします。
価格の前提条件 :
- コンテンツ抽出: 1,000 ページあたり 5.00 ドル
- コンテキスト化: 1M トークンあたり $1.00
- GPT-4o-mini 入力トークン: 1M トークンあたり $0.40
- GPT-4o-mini 出力トークン: 1M トークンあたり $1.60
- 埋め込み: 1,000 トークンあたり 0.02 ドル。 トレーニング例でナレッジ ベースを使用していないため、埋め込み料金は適用されません。 精度を向上させるためにラベル付きの例を追加した場合、システムは入力ドキュメントからすべてのテキストを埋め込むために埋め込みトークンの使用を追加し、さらにコンテキストウィンドウに追加されたサンプルデータを処理するための完了入力トークンも追加します。
コスト計算:
- コンテンツ抽出: 1,000 ページ× 1,000 ページあたり $5.00 = $5.00
- コンテキスト化: 1,000,000 トークン × 1M トークンあたり1.00ドル = 1.00ドル
- 入力トークン: 1,100,000 トークン× 1M トークンあたり $0.40 = $0.44
- 出力トークン: 60,000 トークン × $1.60/1M トークン = $0.10
- 埋め込み: 未使用 = $0.00
Total Cost = $5.00 + $1.00 + $0.44 + $0.10 + $0.00 = $6.54 per 1000 pages
注
これらの価格は例示のみを目的としており、実際のコストを表すものではありません。 Azure Content Understanding の価格と Azure OpenAI の価格で現在の料金を確認する
詳細な費用要素
コンテンツ抽出
コンテンツ抽出は、非構造化入力 (ドキュメント、オーディオ、ビデオ) を標準化された再利用可能な形式に変換するための重要な最初のステップです。 この基本的な処理は、すべての生成機能に必要であり、スタンドアロンで使用できます。
モダリティによるコンテンツ抽出の価格:
- ドキュメント: 処理の複雑さに基づく3段階のメーター (最小、基本、または標準)
- オーディオ: 音声からテキストへの文字起こし (1 つの標準メーター、1 分あたりの価格)
- ビデオ: フレーム抽出、ショット検出、音声テキスト変換 (単一標準メーター、1 分あたりの価格)
- 画像: コンテンツ抽出料金なし
ドキュメント コンテンツ抽出計測器
ドキュメントの場合、Content Understanding が実行する処理の種類に対して課金されます。
基本メーター: Content Understanding が OCR 処理を実行して、画像ベースのドキュメント (スキャンされた PDF、画像、TIFF) からテキストを抽出する場合に適用されます。
標準メーター: Content Understanding が、画像ベースのドキュメント (スキャンされた PDF、画像、TIFF) からのテーブル認識や構造要素の検出など、レイアウト分析を実行する場合に適用されます。
最小メーター: OCR やレイアウト処理が不要なデジタル ドキュメント (DOCX、XLSX、HTML、TXT) に適用されます。 使用するアナライザーに関係なく、最小レートが課金されます。デジタル ドキュメントでレイアウト アナライザーを呼び出した場合でも、実行される最小限の処理に対してのみ課金されます。
次の表は、ファイルの種類と分析レベルに基づいて適用されるメーターを示しています。
| [ファイルの種類] | 読み取り (ベーシック) | レイアウト (標準) |
|---|---|---|
| 画像ベース (PDF、PNG、TIFF、JPG など) | 基本メーター | 標準メーター |
| デジタル形式 (DOCX、XLSX、HTML、TXT など) | 最小限のメーター | 最小限のメーター |
ヒント
課金されるメーターは、選択したアナライザーではなく、Content Understanding が実際に実行する処理によって異なります。 デジタル ドキュメントは、OCR やレイアウト処理を必要としないため、常に最小メーターを使用します。
生成機能
Content Understanding の生成機能では、生成 AI モデルを使用して出力の品質を向上させます。 最新の API バージョン [2025-11-01] では、ユース ケース (GPT-4o や GPT-4o-mini など) に基づいて生成モデルを選択できます。
生成機能を使用する場合、Content Understanding では、指定した Foundry モデルのデプロイが使用されます。 完了モデルまたは埋め込みモデルのトークンの使用は、そのデプロイで行われます。
コンテキスト化トークン
コンテキスト化は、生成モデルのコンテキストを準備し、最終的な構造化された結果に出力を後処理する Content Understanding の処理レイヤーです。
コンテキスト化によって提供される内容:
- 構造化スキーマへの出力の正規化と書式設定
- 情報の出所を示すソースの典拠
- 抽出の信頼性に関する信頼度スコアの計算
- LLM の使用と精度を最適化するためのコンテキスト エンジニアリング
課金される場合: 生成機能 (フィールド抽出、図分析、セグメント化、分類、トレーニング) を使用するたびに。
価格: コンテンツ ユニットあたりの固定料金
コンテキスト化トークンは、コンテンツの単位ごとに計算されます。
| 単位 | コンテキスト化トークン | ユニットあたりの有効な標準価格 |
|---|---|---|
| 1 ページ | 1,000 個のコンテキスト化トークン | 1,000 ページあたり 1 ドル |
| 1 画像 | 1,000 個のコンテキスト化トークン | 1,000 枚の画像あたり 1 ドル |
| 1 時間オーディオ | 100,000 個のコンテキスト化トークン | 1 時間あたり $0.10 |
| 1 時間のビデオ | 1,000,000 個のコンテキスト化トークン | 1 時間あたり $1 |
100 万個のコンテキスト化トークンあたり 1.00 ドルを想定しています。
生成モデルの料金 (LLM)
実際のフィールド抽出、分析、およびその他の生成機能を強化する Foundry モデルからのトークンベースの料金。
入力トークンには次のものが含まれます。
- 抽出されたテキストとトランスクリプト
- 画像トークン (ビジュアル分析用)
- スキーマ定義
- システム プロンプト
- トレーニングの例 (ナレッジ ベースを使用する場合)
出力トークンには、次のものが含まれます。
- フィールド値と構造化データ
- 信頼度スコアとソースの根拠付け
- 分析結果と説明
コストの最適化: 大幅な節約のために、より小さなモデル (GPT-4o-mini) またはグローバルデプロイを選択します。
埋め込み料金
精度を向上させるためにラベル付けされた例を使用してカスタム アナライザーをトレーニングするときに使用される埋め込みモデルに対するトークンベースの料金。
- 課金時: ラベル付きデータでトレーニング機能を使用する場合のみ
- モデル: text-embedding-3-large、text-embedding-3-small、または text-embedding-ada-002
- 一般的な使用法: ドキュメント全体が埋め込まれています。 使用はテキストの密度によって異なりますが、1 ページあたり最大 1,500 個のトークンが適切な初期見積もりです。
生成機能の詳細
それぞれに少し異なるコストの影響を与える複数の生成機能があります。
フィールドの抽出
スキーマ定義に基づいて構造化されたキーと値のペアを生成します。 たとえば、請求書の送信者/受信者、広告申込情報、タグラインや製品の外観などの動画広告要素などがあります。
コストへの影響: 料金はスキーマの複雑さとコンテンツ サイズに応じてスケーリングされます。
図の分析
画像、グラフ、図の説明テキストを作成して、RAG ワークフローで視覚的なコンテンツを検索できるようにします。
コストへの影響: 分析された画像ごとの LLM トークン - 画像解釈用の入力トークンと説明用の出力トークンの両方。 使用状況は、ドキュメントに含まれる画像のサイズと数に応じてスケーリングされます。
セグメント化
ドキュメントまたはビデオを論理的なセクションに分割して、対象となる処理を行い、効率を向上します。
コストへの影響: 作成された各セグメントの出力トークン コスト。 必要に応じて、アナライザーをチェーンして、各セグメントの詳細な分析を行うことができます。 チェーンを行うと、チェーンされたアナライザーを個別に実行するのと同等のコンテンツ抽出と生成の使用が発生します。
分類
分類用のドキュメントまたはセグメントにラベルを割り当て、特殊なアナライザーにインテリジェントなルーティングを行います。
コストへの影響: 分類の LLM とコンテキスト化のコスト。 別のアナライザーにルーティングすると、それぞれの料金が加算されます。
Training
ドメイン固有の精度を向上するために、ラベル付きの例を使用してカスタム アナライザーを構築します。
コストへの影響: ラベル付きデータを追加するときにトークンの使用状況を埋め込み、トレーニング例を取得してモデルに提供する際の分析中に LLM トークンを追加します。
ナレッジベース
ドメイン固有の精度を向上させるために、ラベル付けされたトレーニング例を使用してカスタム アナライザーを強化します。
コストへの影響: 埋め込みモデルは、サンプルのインデックス作成と取得に使用されます。 さらに、トレーニングの例が取得され、モデルに提供されるときに、LLM トークンが分析中に使用されます。
よく寄せられる質問
LLM の使用に対して課金されるタイミング
LLM トークンの料金は、アナライザーに Foundry デプロイを提供し、Content Understanding で生成機能を使用する場合にのみ課金されます。 コンテンツ抽出のみを実行するアナライザー (生成機能のない prebuilt-read、 prebuilt-layout、カスタム アナライザーなど) では、LLM 料金は発生しません。
Foundry モデルの使用に対して 2 回課金されますか?
No. Content Understanding では、すべての LLM 呼び出しおよび埋め込み呼び出しに対してリンクされた LLM デプロイメントが使用されます。 これらのデプロイに対しての料金が発生します。 コンテンツの抽出とコンテキスト化には Content Understanding、生成モデル トークン (入力/出力トークンと埋め込み) には Foundry を支払います。
小さいモデルでどのくらいのコストを節約できますか?
GPT-4o の代わりに GPT-4o-mini を選択すると、LLM のコストを最大 80%削減できます。 グローバル デプロイでは、さらに 9% 節約できます。 コンテンツ抽出とコンテキスト化の料金は、モデルの選択に関係なく変わりません。
トークンの使用量が増えるのは何ですか?
いくつかの機能は、トークンの消費量を乗算します。
- ソースの接地と信頼度スコア: 最大 2 倍のトークン使用量
- 抽出モード: 最大 1.5 倍のトークン使用量
- トレーニングの例: 最大 2 倍のトークン使用量
- セグメント化/分類: 最大 2 倍のトークン使用量
要求が失敗した場合、課金されますか?
要求がエラー (400 エラーなど) で失敗した場合、Content Understanding はコンテンツの抽出やコンテキスト化に対して課金されません。 ただし、Foundry 完了モデルの呼び出しが失敗前にその要求の一部として成功した場合は、Foundry の課金ポリシーに基づいて Foundry モデルの使用に対して課金されます。
コスト最適化のヒント
- ミニモデルから始める - GPT-4o-miniはほとんどの抽出タスクに大幅な節約を提供します
- データ所在地とコンプライアンスで許可されている場合にグローバル デプロイを使用する
- 高度な機能を選択的に有効にする - 必要に応じてソース の接地と信頼度スコアのみを使用する
- スケーリング前に代表的なファイルをテストして、実際のトークン消費量を理解する
- Azure portal を使用して使用状況を定期的に監視し、最適化の機会を特定する
その他の価格の例
さまざまなシナリオでの価格のしくみを示す詳細な例を次に示します。
例 1: RAG ワークフローのドキュメント処理
シナリオ: Retrieval-Augmented ジェネレーション (RAG) ソリューションのドキュメントからコンテンツを抽出する必要があります。
prebuilt-documentSearchを使用して、テキスト、レイアウト、および図の説明を抽出します。
入力:
- 1,000 ページ
- モデル: GPT-4.1 グローバルデプロイ
- リージョン: 米国東部
価格の内訳:
コンテンツ抽出: 1,000 ページ
- コスト: (1,000 / 1,000) × $5.00 = $5.00
図の分析:
1 ページあたり 2 つの数値を想定しています。 図ごとに約 1,000 個の入力トークンと 200 個の出力トークンのコストがかかります。
- 入力トークン: 2,000 図形× 1000 トークン/画像 = 2,000,000 トークン
- コスト: (2,000,000 / 1,000,000) × $2.00 = $4.00
- 出力トークン: 2,000 ページ× 200 トークン/ページ = 400,000 トークン
- コスト: (400,000 / 1,000,000) × $8.00 = $3.2
コンテキスト化: 1,000 ページ× 1,000 トークン/ページ = 1,000,000 トークン
- コスト: (1,000,000 / 1,000,000) × $1.00 = $1.00
推定コストの合計: $5.00 + $4 + $3.2 + $1.00 = $13.20
注
これらの価格は例示のみを目的としており、実際のコストを表すものではありません。 Azure Content Understanding の価格と Azure OpenAI の価格で現在の料金を確認する
例 2: フィールド抽出による請求書の処理
シナリオ: 構造化データ (請求書番号、日付、仕入先、合計、明細) を抽出するために、 prebuilt-invoice を使用して請求書処理を自動化します。
入力:
- 1,000 ページ
- モデル: GPT-4.1-mini グローバルデプロイ (コスト最適化)
- 特徴: 抽出モード + ソース推定 + 信頼度スコア
- リージョン: 米国東部
価格の内訳:
コンテンツ抽出: 1,000 ページ
- コスト: (1,000 / 1,000) × $5.00 = $5.00
フィールド抽出: ソース推定と信頼度が有効になっている場合、トークンの使用量はページあたり約 2 倍になります。
- 基本入力トークン: 1,000 ページ× 5,200 トークン/ページ = 5,200,000 トークン
- コスト: (5,200,000 / 1,000,000) × $0.40 = $2.08
- 基本出力トークン: 1,000 ページ× 180 トークン/ページ = 180,000 トークン
- コスト: (180,000 / 1,000,000) × $1.60 = $0.29
コンテキスト化: 1,000 ページ× 1,000 トークン/ページ = 1,000,000 トークン
- コスト: (1,000,000 / 1,000,000) × $1.00 = $1.00
推定コストの合計: $5.00 + $2.08 + $0.29 + $1.00 = $8.37
注
ミニではなく標準の GPT-4.1 グローバル 展開を使用すると、フィールド抽出コストが約 5 倍に増加し、合計は約 33 ドルになります。
注
これらの価格は例示のみを目的としており、実際のコストを表すものではありません。 Azure Content Understanding の価格と Azure OpenAI の価格で現在の料金を確認する
例 3: セグメント レベルのフィールド抽出を使用したビデオ コンテンツの分析
シナリオ: RAG アプリケーションのビデオ コンテンツの構造化表現を抽出します。 ビデオのセグメントごとに構造化データを抽出するには、 prebuilt-videoSearchを使用できます。 セグメントは平均で 15 ~ 30 秒の短いクリップであり、セグメントごとに 1 つの集計フィールドを持つ多数の出力セグメントが生成されます。
入力:
- ビデオの 60 分 (1 時間)
- モデル: GPT-4.1 グローバルデプロイ
- リージョン: 米国東部
前提条件:
- 入力トークン: 1 分あたり 7,500 トークン (サンプリングされたフレーム、文字起こし、スキーマ プロンプト、メタプロトコルに基づく)
- 出力トークン: 1 分あたり 900 トークン (セグメントごとに 10 から 20 個の短い構造化フィールドを想定し、自動セグメント化を使用)
- コンテキスト化: ビデオの 1 時間あたり 1,000,000 トークン
価格の内訳:
コンテンツ抽出: 60 分
- コスト: 60 分 × $1/時間 = $1.00
フィールド抽出:
- 入力トークン: 60 分× 7,500 トークン/分 = 450,000 トークン
- コスト: (450,000 / 1,000,000) × $2.00 = $0.90
- 出力トークン: 60 分× 900 トークン/分 = 54,000 トークン
- コスト: (54,000 / 1,000,000) × $8.00 = $0.43
コンテキスト化: 1 時間あたり 1,000,000 トークン
- コスト: (1,000,000 / 1,000,000) × $1.00 = $1.00
推定コストの合計: $1.00 + $0.90 + $0.43 + $1.00 = $3.33
注
実際のコストは、入力と出力の詳細によって異なります。 この透過的な使用量ベースの課金モデルにより、使用した分だけ支払うようになります。
注
これらの価格は例示のみを目的としており、実際のコストを表すものではありません。 Azure Content Understanding の価格と Azure OpenAI の価格で現在の料金を確認する
例 4: オーディオ コール センターの録音の処理
シナリオ: prebuilt-callCenter を使用してコール センターの記録を分析し、トランスクリプト、話者の区別、センチメント分析、および概要を生成します。
入力:
- オーディオの 60 分
- モデル: GPT-4.1-mini グローバル デプロイ
- リージョン: 米国東部
価格の内訳:
コンテンツ抽出: 60 分
- コスト: 60 分 × $0.36/分 = $0.36
フィールド抽出:
- 入力トークン: 60 × 604 トークン/分 = 36,240 トークン
- コスト: (36,240 / 1,000,000) × $0.40 = $0.01
- 出力トークン: 60 分× 19 トークン/分 = 1,140 トークン
- コスト: (1,140 / 1,000,000) × $1.60 = $0.00
コンテキスト化: 60 分× 1,667 トークン/分 = 100,020 トークン
- コスト: (100,020 / 1,000,000) × $1.00 = $0.10
推定コストの合計: $0.36 + $0.01 + $0.00 + $0.10 = $0.47
注
これらの価格は例示のみを目的としており、実際のコストを表すものではありません。 Azure Content Understanding の価格と Azure OpenAI の価格で現在の料金を確認する
例 5: キャプションを含む画像の処理
シナリオ: prebuilt-imageSearchを使用して、製品イメージの説明的なキャプションを生成しています。
入力:
- 1,000 枚の画像
- モデル: GPT-4.1 グローバルデプロイ
- リージョン: 米国東部
価格の内訳:
コンテンツの抽出: 画像の料金はかかりません
- コスト: $0.00
フィールド抽出:
- 入力トークン: 1,000 個のイメージ× 1,043 トークン/イメージ = 1,043,000 トークン
- コスト: (1,043,000 / 1,000,000) × $2.00 = $2.09
- 出力トークン: 1,000 個のイメージ× 170 トークン/イメージ = 170,000 トークン
- コスト: (170,000 / 1,000,000) × $8.00 = $1.36
コンテキスト化: 1,000 個のイメージ× 1,000 トークン/イメージ = 1,000,000 トークン
- コスト: (1,000,000 / 1,000,000) × $1.00 = $1.00
推定コストの合計: $0.00 + $2.09 + $1.36 + $1.00 = $4.45
注
これらの価格は例示のみを目的としており、実際のコストを表すものではありません。 Azure Content Understanding の価格と Azure OpenAI の価格で現在の料金を確認する