Introdução ao Reconhecimento de Texto AI (OCR)

O reconhecimento de texto, também conhecido como reconhecimento ótico de caracteres (OCR), é suportado por um conjunto de APIs de IA do Windows que podem detetar e extrair texto dentro de imagens e convertê-lo em fluxos de caracteres legíveis por máquinas.

Essas APIs podem identificar caracteres, palavras, linhas, limites de texto poligonal e fornecer níveis de confiança para cada correspondência. Eles também são suportados exclusivamente pela aceleração de hardware em dispositivos com uma unidade de processamento neural (NPU), tornando-os mais rápidos e precisos do que as APIs herdadas do Windows.Media.Ocr.OcrEngine no SDK da plataforma Windows.

Para obter detalhes da API, consulte API ref for Text Recognition (OCR).

O que posso fazer com o AI Text Recognition?

Use os recursos de reconhecimento de texto do AI para identificar e reconhecer texto em uma imagem. Você também pode obter os limites do texto e as pontuações de confiança para o texto reconhecido.

Observação

Caracteres ilegíveis ou de tamanho pequeno podem gerar resultados imprecisos.

Criar um ImageBuffer a partir de um arquivo

Neste exemplo WinUI, chamamos uma LoadImageBufferFromFileAsync função para obter um ImageBuffer de um arquivo de imagem.

Na função LoadImageBufferFromFileAsync, concluímos as seguintes etapas:

Crie um objeto StorageFile a partir do caminho de arquivo especificado.
Abra um fluxo no StorageFile usando OpenAsync.
Crie um BitmapDecoder para o fluxo.
Chame GetSoftwareBitmapAsync no decodificador de bitmap para obter um objeto SoftwareBitmap .
Retornar um buffer de imagem de CreateBufferAttachedToBitmap.

using Microsoft.Windows.AI.Imaging;
using Microsoft.Graphics.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public async Task<ImageBuffer> LoadImageBufferFromFileAsync(string filePath)
{
    StorageFile file = await StorageFile.GetFileFromPathAsync(filePath);
    IRandomAccessStream stream = await file.OpenAsync(FileAccessMode.Read);
    BitmapDecoder decoder = await BitmapDecoder.CreateAsync(stream);
    SoftwareBitmap bitmap = await decoder.GetSoftwareBitmapAsync();

    if (bitmap == null)
    {
        return null;
    }

    return ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
}

#include <iostream>
#include <sstream>
#include <winrt/Microsoft.Windows.AI.Imaging.h>
#include <winrt/Windows.Graphics.Imaging.h>
#include <winrt/Microsoft.Graphics.Imaging.h>
#include <winrt/Microsoft.UI.Xaml.Controls.h>
#include<winrt/Microsoft.UI.Xaml.Media.h>
#include<winrt/Microsoft.UI.Xaml.Shapes.h>

using namespace winrt;
using namespace Microsoft::UI::Xaml;
using namespace Microsoft::Windows::AI;
using namespace Microsoft::Windows::AI::Imaging;
using namespace winrt::Microsoft::UI::Xaml::Controls;
using namespace winrt::Microsoft::UI::Xaml::Media;


winrt::Windows::Foundation::IAsyncOperation<winrt::hstring> 
    MainWindow::RecognizeTextFromSoftwareBitmap(
        Windows::Graphics::Imaging::SoftwareBitmap const& bitmap)
{
    winrt::Microsoft::Windows::AI::Imaging::TextRecognizer textRecognizer = 
        EnsureModelIsReady().get();
    Microsoft::Graphics::Imaging::ImageBuffer imageBuffer = 
        Microsoft::Graphics::Imaging::ImageBuffer::CreateForSoftwareBitmap(bitmap);
    RecognizedText recognizedText = 
        textRecognizer.RecognizeTextFromImage(imageBuffer);
    std::wstringstream stringStream;
    for (const auto& line : recognizedText.Lines())
    {
        stringStream << line.Text().c_str() << std::endl;
    }
    co_return winrt::hstring{ stringStream.str()};
}

Reconhecer texto em uma imagem bitmap

O exemplo a seguir mostra como reconhecer algum texto em um objeto SoftwareBitmap como um único valor de cadeia de caracteres:

Crie um objeto TextRecognizer através de uma chamada para a EnsureModelIsReady função, que também confirma que há um modelo de linguagem presente no sistema.
Usando o bitmap obtido no trecho anterior, chamamos a função RecognizeTextFromSoftwareBitmap.
Chame CreateBufferAttachedToBitmap no arquivo de imagem para obter um objeto ImageBuffer .
Chame RecognizeTextFromImage para obter o texto reconhecido do ImageBuffer.
Crie um objeto wstringstream e carregue-o com o texto reconhecido.
Retorne a cadeia de caracteres.

Observação

A função EnsureModelIsReady é usada para verificar o estado de prontidão do modelo de reconhecimento de texto (e instalá-lo, se necessário).

using Microsoft.Windows.AI.Imaging;
using Microsoft.Windows.AI;
using Microsoft.Graphics.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public async Task<string> RecognizeTextFromSoftwareBitmap(SoftwareBitmap bitmap)
{
    TextRecognizer textRecognizer = await EnsureModelIsReady();
    ImageBuffer imageBuffer = ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
    RecognizedText recognizedText = textRecognizer.RecognizeTextFromImage(imageBuffer);
    StringBuilder stringBuilder = new StringBuilder();

    foreach (var line in recognizedText.Lines)
    {
        stringBuilder.AppendLine(line.Text);
    }

    return stringBuilder.ToString();
}

public async Task<TextRecognizer> EnsureModelIsReady()
{
    if (TextRecognizer.GetReadyState() == AIFeatureReadyState.NotReady)
    {
        var loadResult = await TextRecognizer.EnsureReadyAsync();
        if (loadResult.Status != AIFeatureReadyResultState.Success)
        {
            throw new Exception(loadResult.ExtendedError().Message);
        }
    }

    return await TextRecognizer.CreateAsync();
}

winrt::Windows::Foundation::IAsyncOperation<winrt::Microsoft::Windows::AI::Imaging::TextRecognizer> MainWindow::EnsureModelIsReady()
{
    if (winrt::Microsoft::Windows::AI::Imaging::TextRecognizer::GetReadyState() == AIFeatureReadyState::NotReady)
    {
        auto loadResult = TextRecognizer::EnsureReadyAsync().get();
           
        if (loadResult.Status() != AIFeatureReadyResultState::Success)
        {
            throw winrt::hresult_error(loadResult.ExtendedError());
        }
    }

    return winrt::Microsoft::Windows::AI::Imaging::TextRecognizer::CreateAsync();
}

Obtenha limites de palavras e níveis de confiança

Aqui mostramos como visualizar o BoundingBox de cada palavra em um objeto SoftwareBitmap como uma coleção de polígonos codificados por cores em um elemento Grid .

Observação

Neste exemplo, assumimos que um objeto TextRecognizer já foi criado e passado para a função.

using Microsoft.Windows.AI.Imaging;
using Microsoft.Graphics.Imaging;
using Windows.Graphics.Imaging;
using Windows.Storage;
using Windows.Storage.Streams;

public void VisualizeWordBoundariesOnGrid(
    SoftwareBitmap bitmap,
    Grid grid,
    TextRecognizer textRecognizer)
{
    ImageBuffer imageBuffer = ImageBuffer.CreateBufferAttachedToBitmap(bitmap);
    RecognizedText result = textRecognizer.RecognizeTextFromImage(imageBuffer);

    SolidColorBrush greenBrush = new SolidColorBrush(Microsoft.UI.Colors.Green);
    SolidColorBrush yellowBrush = new SolidColorBrush(Microsoft.UI.Colors.Yellow);
    SolidColorBrush redBrush = new SolidColorBrush(Microsoft.UI.Colors.Red);

    foreach (var line in result.Lines)
    {
        foreach (var word in line.Words)
        {
            PointCollection points = new PointCollection();
            var bounds = word.BoundingBox;
            points.Add(bounds.TopLeft);
            points.Add(bounds.TopRight);
            points.Add(bounds.BottomRight);
            points.Add(bounds.BottomLeft);

            Polygon polygon = new Polygon();
            polygon.Points = points;
            polygon.StrokeThickness = 2;

            if (word.Confidence < 0.33)
            {
                polygon.Stroke = redBrush;
            }
            else if (word.Confidence < 0.67)
            {
                polygon.Stroke = yellowBrush;
            }
            else
            {
                polygon.Stroke = greenBrush;
            }

            grid.Children.Add(polygon);
        }
    }
}

void MainWindow::VisualizeWordBoundariesOnGrid(
    Windows::Graphics::Imaging::SoftwareBitmap const& bitmap,
    Grid const& grid,
    TextRecognizer const& textRecognizer)
{
    Microsoft::Graphics::Imaging::ImageBuffer imageBuffer = 
        Microsoft::Graphics::Imaging::ImageBuffer::CreateForSoftwareBitmap(bitmap);

    RecognizedText result = textRecognizer.RecognizeTextFromImage(imageBuffer);

    auto greenBrush = SolidColorBrush(winrt::Microsoft::UI::Colors::Green());
    auto yellowBrush = SolidColorBrush(winrt::Microsoft::UI::Colors::Yellow());
    auto redBrush = SolidColorBrush(winrt::Microsoft::UI::Colors::Red());
    for (const auto& line : result.Lines())
    {
        for (const auto& word : line.Words())
        {
            PointCollection points;
            const auto& bounds = word.BoundingBox();
            points.Append(bounds.TopLeft);
            points.Append(bounds.TopRight);
            points.Append(bounds.BottomRight);
            points.Append(bounds.BottomLeft);

            winrt::Microsoft::UI::Xaml::Shapes::Polygon polygon{};
            polygon.Points(points);
            polygon.StrokeThickness(2);
            if (word.MatchConfidence() < 0.33)
            {
                polygon.Stroke(redBrush);
            }
            else if (word.MatchConfidence() < 0.67)
            {
                polygon.Stroke(yellowBrush);
            }
            else
            {
                polygon.Stroke(greenBrush);
            }

            grid.Children().Append(polygon);
        }
    }
}

Inteligência Artificial responsável

Usamos uma combinação das etapas a seguir para garantir que essas APIs de criação de imagens sejam confiáveis, seguras e criadas de forma responsável. Recomendamos rever as práticas recomendadas descritas em Desenvolvimento de IA Generativa Responsável no Windows ao implementar recursos de IA em seu aplicativo.

Ver também

Feedback

Esta página foi útil?

Last updated on 2025-11-18

Partilhar via

Introdução ao Reconhecimento de Texto AI (OCR)

O que posso fazer com o AI Text Recognition?

Criar um ImageBuffer a partir de um arquivo

Reconhecer texto em uma imagem bitmap

Obtenha limites de palavras e níveis de confiança

Inteligência Artificial responsável

Ver também

Feedback

Recursos adicionais