次の方法で共有


Foundry Tools のドキュメント ソリューションにおける Azure Content Understanding

コンテンツ解釈には、高度なドキュメント分析機能が用意されています。 組織は、これらの機能を使用して、非構造化コンテンツを実用的で整理されたデータに変換できます。 コンテンツ解釈は、カスタマイズ可能なアナライザーを使用して、広範なドキュメントやフォームから重要な情報、フィールド、リレーションシップを専門的に抽出できます。

ビジネス ユース ケース

ドキュメント アナライザーでは、さまざまな形式およびテンプレートの複雑なドキュメントを処理できます。

  • 契約ライフサイクル管理: さまざまな契約の種類から主要なフィールド、句、義務を抽出します。
  • ローンおよび住宅ローンの申請: 処理の自動化により、銀行、金融業者、政府機関による迅速な処理を実現します。
  • 金融サービス: 財務報告書や資産管理報告書などの複雑なドキュメントを分析します。
  • 経費管理: さまざまな小売業者からの領収書や請求書を解析し、さまざまな形式およびテンプレートの経費を検証します。
  • ドキュメント セットとナレッジ ベースのシナリオ: ドキュメント セット全体からキー フィールドを抽出します。 複数ステップの推論を適用して、検証やエンリッチメントなどのタスクを処理する参照データを追加します。

主な利点

コンテンツ解釈は、RAG やロボティック プロセス オートメーションなどの重要なエンタープライズ シナリオやビジネス シナリオに対応できるように設計された強力なドキュメント分析機能を提供します。 主な利点を以下に示します。

  • インテリジェントな検索の有効化: 非構造化ドキュメントを構造化された検索可能なデータ資産に変換して、組織全体での情報の検出可能性とアクセシビリティを向上させます。
  • グラウンディングされたデータ抽出: 抽出されたデータの明確な追跡可能性とローカライズを維持し、効率的な人間参加レビュー プロセスを容易にし、透明性とコンプライアンスを確保します。
  • 信頼度に基づく自動化: 組み込みの信頼度スコアリングを使用して、ドキュメント処理タスクをインテリジェントに自動化することで、リソースの割り当てを最適化し、運用コストを削減し、意思決定の精度を向上させます。
  • 柔軟なカスタマイズ: 特定のビジネス プロセスとワークフローに合わせてドキュメント アナライザーを簡単に適応させて調整します。 カスタマイズにより、組織の特定の要件に合わせて調整された正確な抽出と分類が可能になります。
  • 精度と信頼性の向上: 重要なビジネス データの正確な抽出と分類を実現し、自動化されたワークフロー全体でエラーを削減し、運用効率を向上させます。
  • エージェント対応: 多様な入力を処理し、エージェントのワークフローに対応した標準形式で出力を配信します。 出力を使用すると、 strongly-typed スキーマでサポートされるデータを使用して、ユーザーの意図をアプリケーションに理解させることができます。これにより、コードに対応した形式でデータをすばやく簡単に取得できます。

ドキュメント アナライザーの機能

ドキュメント抽出フローを示すスクリーンショット。

コンテンツ抽出

コンテンツ抽出は、コンテンツ解釈のドキュメント分析機能の基礎となります。 このプロセスにより、非構造化ドキュメントが、機械で読み取り可能な構造化データに変換されます。 コンテンツ抽出では、印刷されたテキストと手書きのテキストが正確にキャプチャされ、高度なレイアウト分析によってドキュメントの構造が保持されます。

  • コンテンツ分析
    • テキスト: 何百もの言語の機械で印刷されたテキストと手書きのテキストの両方を含む、多言語コンテンツを処理します。
    • 選択マーク: チェック ボックス、ボタン、同様のマーカーなどの選択インジケーターを識別して抽出します。
    • バーコード検出:12種類以上のリニアバーコードと2次元バーコードから情報をスキャンしてデコードします。
    • 数式: LaTeX 形式の複雑な数式をキャプチャして保持します。
    • 画像要素: 画像、図、図、グラフ、および関連するキャプションと注釈を検索して抽出します。
    • ハイパーリンク要素: ドキュメント内に埋め込まれているハイパーリンクを検出します。
    • 注釈要素: 取り消し線、下線、強調表示などの注釈にコンテンツを関連付けます。
    • 図要素: 図要素を検出して、構造化された出力に抽出します。
  • 構造分析
    • 段落: ドキュメントのコンテキストとロールに基づいてテキスト セグメントを検出して分類します。
    • 表形式データ: スパン セルとマルチページ レイアウトを含む複雑な形式を含む、テーブル構造を認識して抽出します。
    • 階層セクション: 階層セクションのヘッダーとコンテンツの構造化された関係性を通じてコンテンツの編成を示します。
  • 取得拡張生成 (RAG)
    • RAG ソリューション: コンテンツ抽出は、生のマルチモーダル データを、取得に最適な構造化された検索可能形式に変換することで、効果的な RAG システムの基盤を形成します。 RAG ソリューションの構築の詳細については、「検索拡張生成」を参照してください。

フィールドの抽出

フィールド抽出を使用すると、要件を満たすようにカスタマイズされたさまざまなドキュメントやフォームから構造化データを抽出、分類、生成できます。 非構造化コンテンツを整理された実用的な情報に変換するプロセスは、データ管理を簡素化し、検索可能性を向上させ、自動化されたワークフローをサポートします。

たとえば、請求書から顧客の詳細、請求先住所、明細請求金額をシームレスに抽出できます。 また、法的契約内の契約当事者、更新日、支払条件を識別することもできます。 効率を最大限に高めるために、事前構築済みのアナライザー テンプレート (請求書用に調整されたテンプレートなど) を使用できます。 また、より多くのサンプル ドキュメントのラベル付けを通じて精度を高めるために、特注のアナライザーをゼロから設計することもできます。

信頼度と接地 API はオプトイン機能です。 フィールド抽出の信頼度と接地を選択するには、アナライザー構成で estimateFieldSourceAndConfidence = true を設定するか、特定のフィールドの estimateSourceAndConfidence = true を設定します。

フィールド抽出方法

コンテンツ解釈には、フィールド抽出のためのさまざまな方法が用意されています。これにより、ドキュメント コンテンツの正確で調整された処理が可能になります。

  • 抽出: 正確で焦点を絞った情報キャプチャのために、領収書からのトランザクション日付や請求書からの明細などの特定のデータを抽出します。
  • 分類: 顧客の通話トランスクリプト内のセンチメントの分類やホテルのレシート明細の分類など、ドキュメント コンテンツを定義済みのカテゴリに分類します。
  • 生成: ドキュメントの要約や章の概要など、ドキュメントから新しい分析情報や要約を生成して、コンテンツのアクセシビリティと理解を高めます。

入力の要件

サポートされている入力ドキュメント形式の詳細については、「サービスのクォータと制限」を参照してください。

サポートされている言語とリージョン

サポートされている言語とリージョンの一覧については、「言語とリージョンのサポート」を参照してください。

データ、プライバシー、セキュリティ

コンテンツ解釈を使用する開発者は、顧客データに関する Microsoft ポリシーを確認する必要があります。 詳細については、「 データ、プライバシー、セキュリティ」を参照してください。