次の方法で共有


コンテンツ理解解析器とは何ですか?

Foundry Tools の Azure Content Understanding の アナライザー は、コンテンツの分析方法と抽出する情報を定義する構成可能な処理ユニットです。 アナライザーは、サービスに指示するレシピと考えてください。

  • 処理するコンテンツの種類 (ドキュメント、画像、オーディオ、ビデオ)
  • 抽出する要素 (テキスト、レイアウト、テーブル、フィールド、トランスクリプト)
  • 出力を構造化する方法 (markdown、JSON フィールド、セグメント)
  • 処理に使用する AI モデル

アナライザーは、Content Understanding の中核となる構成要素です。 コンテンツ抽出、AI を利用した分析、構造化データ出力を 1 つの再利用可能な構成に結合します。 事前構築済みのアナライザーは、一般的なシナリオに使用することも、特定のニーズに合わせてカスタマイズしたカスタム アナライザーを作成することもできます。

アナライザーの種類

Content Understanding には、いくつかの種類のアナライザーが用意されています。

  • 基本アナライザー: 各コンテンツ タイプ (prebuilt-documentprebuilt-audioprebuilt-videoprebuilt-image) のコア処理機能を提供する基本アナライザー。 これらのアナライザーは、通常、カスタム アナライザーの構成要素として使用されます。
  • RAG アナライザー: 検索と AI アプリケーション ( prebuilt-documentSearchprebuilt-videoSearchなど) のセマンティック理解を使用してコンテンツを抽出する、取得拡張生成シナリオ向けに最適化されています。
  • ドメイン固有のアナライザー: 請求書、領収書、ID ドキュメント、コントラクト ( prebuilt-invoiceprebuilt-receiptprebuilt-idDocumentなど) などの特定のドキュメントの種類と業界用に事前構成されています。
  • カスタム アナライザー: カスタム フィールド スキーマと構成を使用して基本アナライザーを拡張して、特定の要件を満たすように作成するアナライザー。

使用可能なドメイン固有アナライザーの詳細と完全な一覧については、「 事前構築済みアナライザー」を参照してください。

アナライザーの構成構造

アナライザー構成は、いくつかの最上位のプロパティを含む JSON オブジェクトを使用して定義されます。 次のコンポーネントを構成できます。

アナライザー構成の全体的な構造を示す要約された例を次に示します。

{
  "analyzerId": "my-custom-invoice-analyzer",
  "description": "Extracts vendor information, line items, and totals from commercial invoices",
  "baseAnalyzerId": "prebuilt-document",
  "config": {
    ...
    "enableOcr": true
    ...
  },
  "fieldSchema": {...}
    }
  },
  "models": {
    "completion": "gpt-4.1",
    "embedding": "text-embedding-3-large"
  }
}

アナライザーのプロパティ

これらのプロパティは、アナライザーを一意に識別して記述します。

analyzerId

  • 説明: アナライザーの一意識別子。 この識別子は、API 呼び出しでアナライザーを参照する方法です。
  • 例:"prebuilt-invoice""my-custom-analyzer"
  • ガイドライン:
    • アナライザーの目的を示すわかりやすい名前を使用する
    • カスタム アナライザーの場合は、事前構築済みのアナライザー名と競合しない名前を選択します
    • 一貫性を保つため、ハイフンで小文字を使用する

name

  • 説明: ユーザーインターフェースやドキュメントに表示される人間が判読できる名称
  • 例:"Invoice document understanding""Custom receipt processor"

description

  • 形容: アナライザーの機能と処理されるコンテンツの簡単な説明。 この説明は、フィールド抽出中に AI モデルのコンテキストとして使用されるため、明確な説明によって抽出の精度が向上します。
  • 例:"Analyzes invoice documents to extract line items, totals, vendor information, and payment terms"
  • ガイドライン:
    • アナライザーが抽出する内容について具体的に指定する
    • サポートされているコンテンツ タイプについて説明する
    • 簡潔でありながら有益な情報を保持する
    • AI モデルの理解を導く明確な説明を記述する

baseAnalyzerId

  • 形容: このアナライザーが構成を継承する親アナライザーを参照します
  • サポートされている基本アナライザー:
    • "prebuilt-document" - ドキュメント ベースのカスタム アナライザーの場合
    • "prebuilt-audio" - オーディオベースのカスタム アナライザー用
    • "prebuilt-video" - ビデオ ベースのカスタム アナライザー用
    • "prebuilt-image" - イメージ ベースのカスタム アナライザーの場合
  • 例:"baseAnalyzerId": "prebuilt-document"

基本アナライザーを指定すると、カスタム アナライザーはすべての既定の構成を継承し、特定の設定をオーバーライドできます。

モデルの構成

models

  • 形容: このアナライザーで処理するときに使用する Foundry モデル名を指定します。 これらは、サービスが使用するモデル名 (デプロイ名ではありません) です。 これらは、基本アナライザーの supportedModels のいずれかと一致する必要があります。 Content Understanding でサポートされているモデルの完全な一覧は、 サポートされているモデルの一覧です。
  • プロパティ:
    • completion - 完了タスクのモデル名 (フィールド抽出、セグメント化、図分析など)
    • embedding - 埋め込みタスクのモデル名 (ナレッジ ベースを使用)
  • 大事な: これらは Foundry カタログのモデル名であり、デプロイ名ではありません。 実行時に、サービスはこれらのモデル名を、リソース レベルで構成した実際のモデル デプロイにマップします。
  • Example:
    {
      "completion": "gpt-4o",
      "embedding": "text-embedding-3-large"
    }
    

接続されたモデルを構成する方法の詳細については、 Content Understanding リソースと Foundry モデル の接続に関するページを参照してください。

処理構成

config オブジェクトには、コンテンツの分析方法を制御するすべての処理オプションが含まれています。 これらのオプションは、機能に基づいてカテゴリに分かれています。

Configオブジェクトのプロパティ

全般オプション

returnDetails
  • 既定値: false (アナライザーによって異なります)
  • 形容: 応答に詳細情報 (信頼度スコア、境界ボックス、テキスト スパン、メタデータ) を含めるかどうかを制御します。
  • 使用するタイミング:
    • 抽出の問題をデバッグするときに true に設定する
    • 抽出されたデータの位置情報が必要な場合
    • 検証に信頼度スコアが必要な場合
    • 品質保証とテスト用
  • 応答への影響: メタデータを増やして応答サイズを大幅に増やす

ドキュメント コンテンツ抽出オプション

enableOcr
  • 既定値: true
  • 形容: 光学式文字認識を使用して、画像やスキャンされたドキュメントからテキストを抽出できるようにします。
  • 使用するタイミング:
    • スキャンされたドキュメント、写真、画像ベースの PDF を有効にする
    • ネイティブ デジタル PDF を無効にしてパフォーマンスを向上させる
  • サポート対象: ドキュメント アナライザー
enableLayout
  • 既定値: true
  • 形容: 段落、線、単語、読み取り順序、構造要素などのレイアウト情報を抽出します。
  • 使用するタイミング:
    • ドキュメントの構造と階層を理解するために必要
    • 正確な段落とセクションの抽出に必要
    • 生テキスト抽出のみが必要な場合は無効にする
  • サポート対象: ドキュメント ベースのアナライザー
enableFormula
  • 既定値: true
  • 説明: LaTeX 形式の数式を検出して抽出します。
  • 使用するタイミング:
    • 科学論文、研究文書、技術文書を有効にする
    • パフォーマンスを向上させるために一般的なビジネス ドキュメントを無効にする
  • サポート対象: ドキュメント ベースのアナライザー
enableBarcode
  • 既定値: true
  • 形容: バーコードと QR コードを検出して抽出し、デコードされた値を返します
  • 使用するタイミング:
    • 在庫ドキュメント、出荷ラベル、製品ドキュメントを有効にする
    • パフォーマンスを向上させるためにバーコードが存在しない場合は無効にする
  • サポート対象: ドキュメント ベースのアナライザー
  • サポートされているバーコードの種類: QR コード、PDF417、UPC-A、UPC-E、Code 39、Code 128、EAN-8、EAN-13、DataBar、Code 93、Codabar、ITF、Micro QR Code、Aztec、Data Matrix、MaxiCode

テーブルとグラフのオプション

tableFormat
  • 既定値:"html"
  • サポートされる値:"html""markdown"
  • 形容: 抽出されたテーブルの出力形式を指定します
  • 使用するタイミング:
    • Web レンダリングに "html" を使用する、または複雑なテーブル構造を保持する必要がある場合
    • ドキュメントまたはテキスト ベースの処理で単純なテーブルに "markdown" を使用する
  • サポート対象: ドキュメント ベースのアナライザー
chartFormat
  • 既定値:"chartjs"
  • サポートされている値:"chartjs"
  • 形容: 抽出されたグラフおよびグラフ データの形式を指定します (Chart.js ライブラリと互換性があります)
  • 使用するタイミング:
    • 横棒グラフ、折れ線グラフ、円グラフからデータを抽出する場合
    • 再レンダリングのためにビジュアル グラフを構造化データに変換する
  • サポート対象: ドキュメント ベースのアナライザー

図と画像分析のオプション

enableFigureDescription
  • 既定値: false
  • 説明: 図表、図形、画像、イラストの自然言語によるテキスト説明を生成します。
  • 使用するタイミング:
    • アクセシビリティ要件の場合 (代替テキスト生成)
    • 図とフローチャートについて
    • インフォグラフィックからの分析情報の抽出
  • サポート対象: ドキュメント ベースのアナライザー
enableFigureAnalysis
  • 既定値: false
  • 形容: グラフ データの抽出や図コンポーネントの識別など、図のより詳細な分析を実行します
  • 使用するタイミング:
    • ドキュメントに埋め込まれたグラフから構造化データを抽出する
    • 複雑な図について
    • 詳細な図の分類
  • サポート対象: ドキュメント ベースのアナライザー

注釈オプション

annotationFormat
  • 既定値:"markdown"
  • サポートされている値:"markdown"
  • 形容: 返される注釈の形式を指定します。
  • サポート対象: ドキュメント ベースのアナライザー

フィールド抽出オプション

estimateFieldSourceAndConfidence
  • 既定値: false (アナライザーによって異なります)
  • 形容: 抽出された各フィールド値のソースの場所 (ページ番号、境界ボックス) と信頼度スコアを返します。
  • 使用するタイミング:
    • 検証と品質保証のワークフロー
    • 抽出の精度について
    • 抽出に関する問題のデバッグ
    • ユーザー インターフェイスでのソース テキストの強調表示
  • サポート対象: ドキュメント アナライザー (請求書、領収書、ID ドキュメント、税フォーム)

オーディオとビデオのオプション

locales
  • Default:[] (空の配列)
  • 形容: 言語固有の処理用のロケール/言語コードの一覧 (主に文字起こし用)
  • サポートされている値: BCP-47 言語コード (例: ["en-US", "es-ES", "fr-FR", "de-DE"])
  • 使用するタイミング:
    • 多言語オーディオ文字起こし
    • 精度を向上するために必要な言語を指定する
    • 特定の地域バリアントでのコンテンツの処理
  • サポート対象:prebuilt-audioprebuilt-videoprebuilt-callCenter

サポートされている言語とロケールの完全な一覧については、「 言語と地域のサポート」を参照してください。

disableFaceBlurring
  • 既定値: false
  • 形容: プライバシー保護のために画像やビデオ内の顔をぼかしる必要があるかどうかを制御します
  • 使用するタイミング:
    • 顔の可視性が分析に必要な場合に true に設定します
    • 必要に応じて共有コンテンツ内の個人の識別を解除する場合に false に設定します
  • サポート対象:prebuilt-imageprebuilt-video

Important

Content Understanding の Face 機能は制限付きアクセス サービスであり、アクセスには登録が必要です。 Content Understanding の顔のグループ化と識別機能は、資格と使用条件に基づいて制限されます。 Face サービスは、Microsoft が管理する顧客とパートナーのみが利用できます。 顔認識受付フォームを使用して利用申請を行ってください。 詳細については、 顔認識のための責任ある AI 投資とセーフガードを参照してください。

分類オプション

contentCategories
  • デフォルト: 未設定
  • 形容: 自動分類と特殊なハンドラーへのルーティングのカテゴリまたはコンテンツ タイプを定義します。 enableSegment set to falseで使用する場合は、現在、ドキュメントでのみサポートされています。 ファイル全体を分類します。 enableSegment=trueで使用すると、ファイルはこれらのカテゴリに基づいてチャンクに分割され、各セグメントは分類され、必要に応じてカテゴリ固有のアナライザーによって処理されます。 常に、使用可能なカテゴリの一覧から 1 つのオプションを選択します。
  • 構造: 各カテゴリには次のものが含まれます。
    • description - (必須) カテゴリ/ドキュメントの種類の詳細な説明。 この説明は、セグメントの境界と分類を決定する際に AI モデルをガイドするプロンプトとして機能します。 1 つのカテゴリが終了し、別のカテゴリが始まる場所を識別するのに役立つ識別特性を含めます。
    • analyzerId - (省略可能) このカテゴリに使用する別のアナライザーへの参照。 参照先アナライザーはリンクされ、コピーされず、一貫した動作が保証されます。 省略すると、より多くの処理を行わずに分類のみが実行されます (分割のみのシナリオ)。
  • モデルの使用方法: 親アナライザーの models プロパティで指定されたモデルは、セグメント化と分類にのみ使用されます。 各サブアナライザーは、抽出に独自のモデル構成を使用します。
  • enableSegmentでの動作:
    • enableSegment: true: コンテンツはカテゴリの説明に基づいてセグメントに分割されます。 各セグメントは、定義されたカテゴリのいずれかに分類されます。 元のコンテンツ オブジェクトのセグメント メタデータに加えて、 analyzerId 指定されたセグメントのコンテンツ オブジェクトを返します。
    • enableSegment: false: コンテンツ全体が 1 つのカテゴリに分類され、それに応じてルーティングされます。 分割せずに階層分類を行う場合に便利です。
  • カテゴリの一致: "other" または "default" カテゴリが定義されていない場合、コンテンツはリストされているカテゴリのいずれかに分類されます。 一致しないコンテンツを適切に処理する "other" カテゴリを含めます。
  • サポート対象: ドキュメント アナライザーとビデオ アナライザー。 ビデオの場合、contentCategory を定義できるのは 1 つだけです。
enableSegment
  • 既定値: false
  • 形容: コンテンツのセグメント化を有効にし、 contentCategoriesで指定されたカテゴリに基づいてファイルをチャンクに分割します。 その後、各セグメントは、選択的処理用に定義されたカテゴリのいずれかに分類されます。
  • セグメント化の動作: サービスは、カテゴリの説明に対してコンテンツを分析することで、コンテンツを論理単位に分割します。 セグメント境界は、次を使用して決定されます。
    • 書類: コンテンツ構造 (ページ、セクション、書式設定の変更) と組み合わせたカテゴリの説明
    • ビデオ: カテゴリの説明と視覚的な手掛かり (ショットの変更、シーンの切り替え、一時的な境界) を組み合わせたもの。 サポートされている contentCategory は 1 つだけです。
  • 使用するタイミング:
    • 異なるパーツが異なる処理を必要とする混合コンテンツ バッチの処理 (請求書と領収書の両方を含む PDF など)
    • 長いドキュメントを分類されたチャンクに分割して選択的な分析を行う
    • コンテンツ タイプ別に動画を分析する (たとえば、メイン コンテンツから広告を分離する)
  • 出力構造:
    • 各セグメント (ID、境界、カテゴリ) のメタデータを含むコンテンツ オブジェクト内の segments 配列を返します。
    • 各セグメントには、以下の分類カテゴリが含まれます。 contentCategories
    • カテゴリが指定されたセグメントに対して、さらに多くのコンテンツ オブジェクト analyzerId 返されます
  • 階層セグメント化: カテゴリのアナライザーにも enableSegment: trueがある場合は、セグメントを再帰的に分割して、複数レベルのコンテンツの内訳を有効にすることができます
  • パフォーマンスへの影響: 特にセグメントが多い場合に、大きなファイルの処理時間が長くなります
  • サポート対象: ドキュメント アナライザーとビデオ アナライザー
segmentPerPage
  • 既定値: false
  • 形容: セグメント化が有効になっている場合は、論理コンテンツ境界を使用する代わりに、ページごとに 1 つのセグメントを強制します。 "個別の「perPage」分割モードの必要性を不要にします。"
  • 使用するタイミング:
    • ページごとの処理ワークフロー
    • 各ページは独立した単位として扱う必要があります
    • 個々のページの並列処理
    • 複数ページのドキュメントでのページ レベルのフィールド抽出
    • 各ページが異なるドキュメントの種類である混合ドキュメント バッチ
  • サポート対象: ドキュメント ベースのアナライザー
omitContent
  • 既定値: false
  • 形容:trueすると、元のコンテンツ オブジェクトが応答から除外され、サブアナライザーから構造化フィールド データまたはコンテンツ オブジェクトのみが返されます (contentCategoriesを使用する場合)
  • 使用するタイミング:
    • 抽出されたフィールド値のみが必要な場合
    • contentCategoriesを持つ構成済みアナライザーで、分類された結果のみを返す
    • 階層分類チェーンの場合は、リーフ アナライザーの結果のみを返します
  • 例 - 選択的分析:
    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "invoice": { "analyzerId": "prebuilt-invoice" },
          "other": { }  // Categorize but don't process
        },
        "omitContent": true  // Only return invoice analysis results
      }
    }
    
  • サポート対象: ドキュメント アナライザー

フィールドの構成

fieldSchema プロパティは、アナライザーがコンテンツから抽出する構造化データを定義します。 フィールド、型、抽出方法を指定します。

設計意図: 構造化抽出

フィールド スキーマは、非構造化コンテンツを構造化されたクエリ可能なデータに変換します。 スキーマは次の両方として機能します。

  • 抽出されるデータを定義するコントラクト
  • 検索対象と解釈方法に関する AI モデルのガイド

フィールド スキーマ構造

{
  "fieldSchema": {
    "name": "InvoiceAnalysis",
    "fields": {
      "VendorName": {
        "type": "string",
        "description": "Name of the vendor or supplier",
        "method": "extract"
      },
      "InvoiceTotal": {
        "type": "number",
        "description": "Total amount due on the invoice",
        "method": "extract"
      },
      "LineItems": {
        "type": "array",
        "items": {
          "type": "object",
          "properties": {
            "Description": { "type": "string" },
            "Quantity": { "type": "number" },
            "UnitPrice": { "type": "number" },
            "Amount": { "type": "number" }
          }
        },
        "description": "List of items on the invoice, typically in a table format",
        "method": "generative"
      }
    }
  }
}

フィールド スキーマのプロパティ

name

  • 形容: 通常、コンテンツ タイプまたはユース ケースを記述するスキーマの名前
  • 例:"InvoiceAnalysis""ReceiptExtraction""ContractFields"

fields

  • 形容: フィールド名をキーとして使用して、抽出する各フィールドを定義するオブジェクト。 空のオブジェクト {} は、構造化フィールドが抽出されていないことを示します (レイアウトのみのアナライザーなど)。
  • 階層的なサポート: 複雑なデータ構造を表す object 型と array 型を介して入れ子になったフィールドをサポートします
  • ベスト プラクティス: パフォーマンスと抽出の精度を低下させることができるため、深い入れ子 (2 ~ 3 レベルを超える) を避ける

フィールド定義プロパティ

fields オブジェクトの各フィールドには、次のプロパティがあります。

type

  • サポートされる値:"string""number""boolean""date""object""array"
  • 形容: フィールド値のデータ型。 最適な抽出のために、データ セマンティクスに最も一致する型を選択します。

description

  • 形容: フィールドに含まれる内容とフィールドを検索する場所の明確な説明。 この説明は、フィールド抽出をガイドするためのミニ プロンプトとして AI モデルによって処理されるため、特定性と明確さが抽出の精度を直接向上させます。

有効なフィールドの説明を記述する方法については、「 フィールド抽出のベスト プラクティス」を参照してください。

method

  • サポートされる値:"generate""extract""classify"
  • 形容: このフィールドに使用する抽出方法。 指定しない場合、フィールドの種類と説明に基づいて最適な方法が自動的に決定されます。
  • メソッドの型:
    • "generate" - 値は、AI モデルを使用してコンテンツに基づいて自由に生成されます (解釈を必要とする複雑なフィールドまたは変数フィールドに最適)
    • "extract" - 値はコンテンツに表示されるとおりに抽出されます (特定の場所からのリテラル テキスト抽出に最適)。 抽出では、このフィールド enableSourceGroundingAndConfidence true に設定する必要があります。
    • "classify" - 値は、定義済みのカテゴリ セットに対して分類されます (使用可能な値の固定セットで enum を使用する場合に最適)
estimateSourceAndConfidence
  • 既定値: false
  • 形容: このフィールド値のソースの場所 (ページ番号、境界ボックス) と信頼度スコアを返します。 method = extract のフィールドには true を指定する必要があります。 このプロパティは、アナライザー レベル estimateFieldSourceAndConfidence プロパティをオーバーライドします。
  • 使用するタイミング:
    • 検証と品質保証のワークフロー
    • 抽出の精度について
    • 抽出に関する問題のデバッグ
    • ユーザー インターフェイスでのソース テキストの強調表示
  • サポート対象: ドキュメント アナライザー (請求書、領収書、ID ドキュメント、税フォーム)

items (配列型の場合)

  • 形容: 配列内の項目の構造を定義します
  • プロパティ:
    • type - 配列項目の型 ("string""number""object")
    • properties - オブジェクト項目の場合、入れ子になったフィールド構造を定義します

properties (オブジェクト型の場合)

  • 形容: オブジェクト内の入れ子になったフィールドの構造を定義します。
  • Example:
    {
      "Address": {
        "type": "object",
        "properties": {
          "Street": { "type": "string" },
          "City": { "type": "string" },
          "State": { "type": "string" },
          "ZipCode": { "type": "string" }
        },
        "description": "Complete mailing address"
      }
    }
    

アナライザーの完全な例

このリファレンスで説明する主要な概念を示すカスタム請求書アナライザー構成の包括的な例を次に示します。

{
  "analyzerId": "my-custom-invoice-analyzer",
  "name": "Custom Invoice Analyzer",
  "description": "Extracts vendor information, line items, and totals from commercial invoices",
  "baseAnalyzerId": "prebuilt-document",
  "config": {
    "returnDetails": true,
    "enableOcr": true,
    "enableLayout": true,
    "tableFormat": "html",
    "estimateFieldSourceAndConfidence": true,
    "omitContent": false
  },
  "fieldSchema": {
    "name": "InvoiceFields",
    "fields": {
      "VendorName": {
        "type": "string",
        "description": "Name of the vendor or supplier, typically found in the header section",
        "method": "extract"
      },
      "VendorAddress": {
        "type": "object",
        "properties": {
          "Street": { "type": "string" },
          "City": { "type": "string" },
          "State": { "type": "string" },
          "ZipCode": { "type": "string" }
        },
        "description": "Complete vendor mailing address"
      },
      "InvoiceNumber": {
        "type": "string",
        "description": "Unique invoice number, often labeled as 'Invoice #' or 'Invoice No.'",
        "method": "extract"
      },
      "InvoiceDate": {
        "type": "date",
        "description": "Date the invoice was issued, in format MM/DD/YYYY",
        "method": "extract"
      },
      "DueDate": {
        "type": "date",
        "description": "Payment due date",
        "method": "extract"
      },
      "LineItems": {
        "type": "array",
        "items": {
          "type": "object",
          "properties": {
            "Description": {
              "type": "string",
              "description": "Item or service description"
            },
            "Quantity": {
              "type": "number",
              "description": "Quantity ordered"
            },
            "UnitPrice": {
              "type": "number",
              "description": "Price per unit"
            },
            "Amount": {
              "type": "number",
              "description": "Line total (Quantity × UnitPrice)"
            }
          }
        },
        "description": "List of items or services on the invoice, typically in a table format",
        "method": "generative"
      },
      "Subtotal": {
        "type": "number",
        "description": "Sum of all line items before tax",
        "method": "extract"
      },
      "Tax": {
        "type": "number",
        "description": "Tax amount",
      },
      "Total": {
        "type": "number",
        "description": "Total amount due (Subtotal + Tax)",
      },
      "PaymentTerms": {
        "type": "string",
        "description": "Payment terms and conditions (e.g., 'Net 30', 'Due upon receipt')",
        "method": "generative"
      }
    }
  },
  "supportedModels": {
    "completion": ["gpt-4o", "gpt-4o-mini", "gpt-4.1"],
    "embedding": ["text-embedding-3-large", "text-embedding-3-small"]
  },
  "models": {
    "completion": "gpt-4.1",
    "embedding": "text-embedding-3-large"
  }
}

カスタム アナライザーの作成

このドキュメントで説明されている構成構造に基づいてカスタム アナライザーを作成するには、Content Understanding REST API を使用してアナライザー定義を送信します。

API エンドポイント

JSON ファイルからアナライザー構成を送信してカスタム アナライザーを作成するには、次の curl コマンドを使用します。

curl -X PUT "https://{endpoint}/contentunderstanding/analyzers/{analyzerId}?api-version=2025-11-01-preview" \
  -H "Content-Type: application/json" \
  -H "Ocp-Apim-Subscription-Key: {key}" \
  -d @analyzer-definition.json

次のプレースホルダーを置き換えてください。

  • {endpoint} - コンテンツの解釈リソースのエンドポイント
  • {analyzerId} - アナライザーの一意識別子
  • {key} - あなたの Content Understanding サブスクリプション キー
  • analyzer-definition.json - アナライザー構成ファイルへのパス

要求本文

アナライザー構成ファイルは、このリファレンスで説明されているプロパティを含む JSON オブジェクトである必要があります。 完全な例については、「 カスタム アナライザーの作成」チュートリアルを参照してください。

[応答]

API は、アナライザー作成操作の状態を追跡するために使用できる201 Created ヘッダーを含むOperation-Location応答を返します。

次のステップ

さまざまなコンテンツ タイプ (ドキュメント、画像、オーディオ、ビデオ) の例を含む完全なチュートリアルについては、「 カスタム アナライザーの作成」を参照してください。

コンテンツ タイプ別の構成

異なるコンテンツ タイプでは、さまざまな構成オプションがサポートされます。 クイック リファレンスを次に示します。

ドキュメント アナライザー

ベース アナライザー:prebuilt-document

サポートされている構成オプション:

  • returnDetails
  • omitContent
  • enableOcr
  • enableLayout
  • enableFormula
  • enableBarcode
  • tableFormat
  • chartFormat
  • enableFigureDescription
  • enableFigureAnalysis
  • enableAnnotations
  • annotationFormat
  • enableSegment
  • segmentPerPage
  • estimateFieldSourceAndConfidence (構造化アナライザー)
  • contentCategories (マルチバリアント アナライザー)

オーディオ アナライザー

ベース アナライザー:prebuilt-audio

サポートされている構成オプション:

  • returnDetails
  • locales

ビデオ アナライザー

ベース アナライザー:prebuilt-video

サポートされている構成オプション:

  • returnDetails
  • locales
  • contentCategories
  • enableSegment
  • omitContent
  • disableFaceBlurring

イメージ アナライザー

ベース アナライザー:prebuilt-image

サポートされている構成オプション:

  • returnDetails
  • disableFaceBlurring