Von Bedeutung
英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントの EN-US バージョンを参照してください。
この記事では、光学式文字認識 (OCR) のユース ケースについて説明します。
透明度に関するメモとは
AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。
Microsoft では、AI テクノロジのしくみを理解するのに役立つ 透明性に 関するメモを提供しています。 これには、システムのパフォーマンスと動作に影響を与えるシステム所有者の選択肢、およびテクノロジ、人、環境などのシステム全体について検討することの重要性が含まれています。 独自のシステムを開発または展開するときに透明性に関するメモを使用したり、システムを使用したり、システムの影響を受けるユーザーと共有したりできます。
透明性に関するメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、 Microsoft の AI 原則を参照してください。
光学式文字認識 (OCR) の概要
今日の企業では、画像、スキャンされた紙文書、デジタル ファイルのテキストを実用的な分析情報に変換する必要が頻繁に発生しています。 これらの分析情報は、ナレッジ マイニング、ビジネス プロセスの自動化、およびすべてのユーザーのコンテンツのアクセシビリティを向上します。 光学式文字認識 (OCR) は、画像やドキュメントなどの視覚的なコンテンツからテキストを抽出するために使用される AI サービスです。 OCR では現在、印刷テキストの抽出に複数の言語がサポートされています (OCR でサポートされている言語を参照)。 手書き OCR は現在、英語専用でサポートされています。
OCR の基本
Microsoft の OCR テクノロジ は、Foundry Tools Read API の Azure Vision を介して提供されます。 お客様は、読み取り API をコンテンツと共に呼び出して、抽出されたテキスト、その場所、およびマシンの読み取り可能なテキスト出力内のその他の分析情報を取得します。 ビジネス アプリケーション内の出力を処理して、コンテンツ インテリジェンス、ビジネス プロセスの自動化、およびその他のシナリオをユーザーに実装します。
| 任期 | 定義 |
|---|---|
| 非同期 | 非同期とは、サービスが抽出されたテキストをすぐに返さないことを意味します。 代わりに、プロセスはバックグラウンドで開始されます。 顧客アプリケーションでは、後で確認して抽出されたテキストを取得する必要があります。 |
| お読みください | 読み取り操作は、画像とドキュメントを受け入れて分析とテキスト抽出を開始する非同期呼び出しであり、別の呼び出しを介して返されます。 |
| 読み取り結果を取得する | 分析および抽出プロセスがアクティブな間、結果の取得操作によって進行状況が出力されます。 プロセスが完了すると、読み取り結果の取得操作によって、抽出されたテキスト (テキスト行と単語の形式) と信頼度の値が出力されます。 |
| 信頼度値 | 読み取り結果の取得操作は、抽出されたすべての単語の 0 ~ 1 の範囲の信頼度値を返します。 この値は、100 から単語を正しく抽出する回数に関するサービスの見積もりを表します。 たとえば、82% の確率で正しく抽出されると推定される単語の信頼度値は 0.82 になります。 |
利用事例の例
OCR テクノロジの一般的な例を次に示します。
- 画像とドキュメントの検索とアーカイブ: 法的契約、技術文書、ニュース コンテンツなどの非構造化ドキュメントには、自動化されたタグ付け、分類、検索などのプロセスでは使用できない豊富な情報とメタデータが含まれています。 OCR を使用すると、これらのドキュメントのテキストを機械で読み取り、分析、検索、取得できます。
- 画像コンテンツのモデレーションとローカリゼーション: eコマース企業、ユーザーが生成したコンテンツパブリッシャー、オンラインゲームやソーシャルメディアコミュニティは、オンラインの安全規制に準拠するために画像をモデレートする必要があります。 場合によっては、国際的な対象ユーザー向けにコンテンツをローカライズする必要もあります。 OCR を使用すると、画像からテキストを抽出してダウンストリーム処理を適用できます。
- ビジネス プロセスの自動化: ビジネス プロセスの自動化では、ドキュメントやアプリケーション画面のユーザー入力データと基本設定を複雑なビジネス プロセスと統合する必要があります。 OCR を使用すると、ドキュメントや画像に埋め込まれたテキストのロックが解除され、ビジネス ワークフローの手順で使用できるようになります。
- 財務および医療ドキュメントの処理: 財務および保険の申請フォームのバックオフィス処理で使用する場合、OCR はドキュメント処理の時間と労力を節約するのに役立ちます。 同様に、医療請求の払い戻しと医療情報フォームに適用される OCR は、サービスと特典の払い戻しと資格を高速化します。
その他のユース ケース選択時の考慮事項
ユース ケースを選択するときは、次の要因を考慮してください。
特典の付与または拒否に使用する場合は慎重に検討してください。特典の付与または拒否に OCR 出力を直接使用すると、誤った情報や不完全な情報に基づく場合にエラーが発生する可能性があります。 たとえば、医療フォームに入力すると、ユーザーがエラーを発生させたり、重要な情報を含めなかったりすることがあります。 さらに、OCR によって、フォームの一部が誤って読み取られているか、検出されない可能性があります。 消費者にとって公平で質の高い意思決定を確実にするために、OCR ベースの自動化と人間の監視を組み合わせます。
署名の識別には使用しないでください。手書きのテキストを抽出するときは、署名で OCR 結果を使用して個人を識別しないようにします。 署名は、人間とマシンでは読みにくいものです。 OCR を使用するより良い方法は、より詳しい分析を目的として署名の存在を検出するために使用する方法です。
重大な悪影響を及ぼす可能性のある意思決定には OCR を使用しないでください。このようなユース ケースの例としては、医療処方の処理や薬の調剤などがあります。 処方箋からテキストを抽出する機械学習モデルでは、検出されないか、テキスト出力が正しくない可能性があります。 誤った出力に基づく決定は、深刻な悪影響をもたらす可能性があります。 さらに、個人に重大な影響を与える可能性のある意思決定の人間によるレビューを含めることをお勧めします。
-
法的および規制上の考慮事項: 組織は、Foundry Tools とソリューションを使用する際に、特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用には適していない可能性があります。 さらに、Foundry Tools またはソリューションは、該当するサービス利用規約および関連する行動規範で禁止されている方法で設計されておらず、使用されない場合があります。