你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

OCR - 光学字符识别

警告

不建议使用此服务,包括 Foundry 工具中的 Azure 视觉 旧版 OCR API v3.2RecognizeText API v2.1

OCR(读取)版

重要说明

选择最适合你的要求的读取版本。

输入 示例 读取版本 优势
图像:常规、自然图像 标签、路标和海报 适用于图像的 OCR(版本 4.0) 通过性能增强的同步 API 对常规非文档图像进行优化,可更轻松地在用户体验方案中嵌入 OCR。
文档:数字文档和扫描的文档,包括图像 书籍、文章和报表 文档智能读取模型 使用异步 API 对文本密集型扫描文档和数字文档进行优化,有助于大规模地自动执行智能文档处理。

关于 Azure 视觉 v3.2 GA Read

正在查找最新的 Azure 视觉 v3.2 GA Read? 未来所有的读取 OCR 增强功能都属于前面列出的两项服务。 Azure Vision v3.2 没有进一步更新。 有关详细信息,请参阅 调用 Azure Vision 3.2 GA 读取 API快速入门:Azure Vision v3.2 GA 读取

光学字符识别 (OCR) 也称为文本识别或文本提取。 通过基于机器学习的 OCR 技术,可以从图像(如海报、街道标志和产品标签)以及文章、报表、表单和发票等文档中提取印刷或手写文本。 文本通常提取为单词、文本行和段落或文本块,从而获取扫描文本的电子版。 此功能可消除或显著减少手动数据输入的需求。

OCR 引擎

Microsoft的 读取 OCR 引擎使用支持 全球语言的多个高级机器学习模型。 它提取印刷文本和手写文本,包括混合语言和写作样式。 可以使用 “读取 ”作为云服务或本地容器进行灵活部署。 它还可用作单个非文档的仅限图像的同步 API,其性能增强功能可简化实现 OCR 辅助用户体验。

智能文档处理(IDP)使用 OCR 作为其基础技术,通过基于 文档智能的高级机器学习 AI 服务提取结构、关系、键值、实体和其他以文档为中心的见解。 文档智能包含文档优化版本的“读取”作为其 OCR 引擎,同时委托给其他模型以获取更详细的见解。 如果要从扫描的文档和数字文档中提取文本,请使用 文档智能读取 OCR

如何使用 OCR

在 Vision Studio 中试用 OCR。 然后,选择最符合你要求的阅读版本链接之一。

屏幕截图:Vision Studio 中的读取 OCR 演示。

OCR 支持的语言

目前在 Azure 视觉中提供的两个 读取 版本都支持多种语言的印刷体和手写文本。 印刷文本的 OCR 支持英语、法语、德语、意大利语、葡萄牙语、西班牙语、中文、日语、朝鲜语、俄语、阿拉伯语、印地语和其他使用拉丁语、西里尔文、阿拉伯语和 Devanagari 脚本的国际语言。 手写文本的 OCR 支持英语、简体中文、法语、德语、意大利语、日语、朝鲜语、葡萄牙语和西班牙语。

请参阅 OCR 支持的语言完整列表。

OCR 常用功能

读取 OCR 模型在 Azure 视觉和文档智能中提供了常见的基线功能,同时针对相应的方案进行优化。 以下列表汇总了常用功能:

  • 提取受支持语言的印刷和手写文本
  • 具有位置和置信度分数的页面、文本行和字词
  • 支持混合语言、混合模式(打印和手写)
  • 本地部署可用的 Distroless Docker 容器

使用 OCR 云 API 或在本地部署

大多数客户更喜欢云 API,因为它们易于集成并提供快速工作效率。 Azure 和 Azure 视觉服务可处理规模、性能、数据安全性和合规性需求,同时专注于满足客户的需求。

对于本地部署, 读取 Docker 容器 使你能够在自己的本地环境中部署 Azure Vision v3.2 正式版 OCR 功能。 容器非常适合用于满足特定的安全性和数据管理要求。

输入要求

读取 API 将图像和文档作为输入。 图像和文档必须满足以下要求:

  • 支持的文件格式包括 JPEG、PNG、BMP、PDF 和 TIFF。
  • 对于 PDF 和 TIFF 文件,最多处理 2,000 页(仅免费层的前两页)。
  • 图像的文件大小必须小于 500 MB(免费层的 4 MB),尺寸至少为 50 x 50 像素,最多为 10,000 x 10,000 像素。 PDF 文件没有大小限制。
  • 对于 1024 x 768 的图像,要提取的文本的最小高度为 12 像素,这相当于 150 DPI 下约 8 磅的字体文本。

注意

无需裁剪文本行的图像。 将整个图像发送到读取 API,它会识别所有文本。

OCR 数据隐私和安全

与所有 Foundry 工具一样,使用 Azure 视觉服务的开发人员应了解Microsoft客户数据策略。 有关详细信息,请参阅 Microsoft 信任中心上的 Foundry 工具页

后续步骤