Compartilhar via


Preços do Azure Content Understanding in Foundry Tools

Este artigo explica o modelo de preços do Azure Content Understanding in Foundry Tools com exemplos claros e detalhamentos de custos. Saiba pelo que você é cobrado e como estimar os custos para sua carga de trabalho.

Para obter taxas de preços específicas, consulte Preços de Compreensão de Conteúdo do Azure.

Noções básicas sobre os dois tipos de encargos

O preço do Azure Content Understanding baseia-se em duas categorias de uso principais:

1. Encargos de extração de conteúdo

A extração de conteúdo transforma entradas não estruturadas (documentos, áudio, vídeo) em texto e conteúdo estruturados e pesquisáveis. Essa saída inclui o OCR (reconhecimento óptico de caracteres) para documentos, conversão de fala em texto para áudio/vídeo e detecção de layout. Você paga por unidade de entrada processada:

  • Documentos: a cada 1.000 páginas
  • Áudio e vídeo: por minuto

2. Encargos de recursos generativos

Ao usar recursos com tecnologia de IA que chamam LLMs (grandes modelos de linguagem), você incorre em dois tipos de custos:

  • Encargos de contextualização: preparar o contexto, gerar pontuações de confiança, fundamentar a fonte e formatar a saída. Para obter detalhes, consulte tokens de contextualização.
  • Encargos de modelo generativo: custos baseados em token de implantações de modelo da Fábrica da Microsoft (LLMs para geração, inserções para exemplos de treinamento). A Compreensão de Conteúdo usa a implantação de modelo da Fábrica que você fornece para todas as chamadas relacionadas à IA. Você não verá nenhuma LLM ou cobrança de uso de token inserida na Compreensão de Conteúdo— esse uso aparece em sua implantação de modelo da Fábrica. Para obter detalhes, consulte os encargos do modelo generativo.

Os recursos generativos incluem: extração de campo, análise de figura, segmentação, categorização, treinamento.

Equação de custo

O custo total para executar um analisador de Compreensão de Conteúdo segue esta fórmula:

Total Cost = Content Extraction + Contextualization Tokens + LLM Input Tokens + LLM Output Tokens + Embeddings Tokens

Se você usar apenas a extração de conteúdo sem recursos de geração, será cobrado apenas pela extração de conteúdo. Quando você usa recursos generativos, todos os encargos aplicáveis se aplicam.

Como estimar seus custos

1. Testar com arquivos representativos

Execute uma pequena análise de teste com seus arquivos e esquemas reais. Verifique o objeto usage na resposta da API de Analisadores para ver o consumo real de token.

  "usage": {
    "documentPagesMinimal": 0, // Pages processed at the minimal level (i.e. txt, xlsx, html, and other digital file types)
    "documentPagesBasic": 0, // Pages processed at the basic level (i.e. read)
    "documentPagesStandard": 2, // Pages processed at the standard level (i.e. layout)
   
    "contextualizationToken": 2000,
    "tokens": {
      "gpt-4.1-input": 10400,
      "gpt-4.1-output": 360,
    }
  }

2. Usar a Calculadora de Preços do Azure

Encontre o Entendimento de Conteúdo na Calculadora de Preços do Azure e defina suas configurações:

  • Adicionar "Compreensão de Conteúdo" à calculadora
  • Use os resultados do teste da etapa 1 para calcular as médias de token por página ou por minuto
  • Insira contagens de token junto com sua região, tipo de arquivo, volume esperado e implantação de modelo

A calculadora fornece projeções de custo precisas para sua carga de trabalho.

Exemplo de preços: extração de campo da fatura

Seguindo a abordagem de estimativa, vamos percorrer um exemplo concreto manualmente para demonstrar como os custos são calculados. Você está processando faturas para extrair dados estruturados, como nome do fornecedor, número da fatura, valor total e itens de linha.

Cenário: você deseja processar 1.000 páginas de fatura usando o GPT-4o-mini com o fundamento da origem e as pontuações de confiança desabilitadas.

Etapa 1: Testar com arquivos representativos Depois de testar arquivos representativos, você encontrou o seguinte uso médio de token por página:

  • Tokens de entrada: 1.100 por página
  • Tokens de saída: 60 por página
  • Contextualização: 1.000 tokens por página (taxa fixa)

Para 1.000 páginas, os totais são iguais:

  • Total de tokens de entrada: 1.000 páginas × 1.100 = 1.100.000 tokens
  • Total de tokens de saída: 1.000 páginas × 60 = 60.000 tokens
  • Total de tokens de contextualização: 1.000 páginas × 1.000 = 1.000.000 tokens

Etapa 2: calcular os custos manualmente (em vez de usar a calculadora de preços) Usando a implantação global gpt-4o-mini com as seguintes suposições de preços:

Suposições de preços :

  • Extração de conteúdo: US$ 5,00 por 1.000 páginas
  • Contextualização: $1,00 por 1 milhão de tokens
  • Tokens de entrada GPT-4o-mini: $0,40 por 1 milhão de tokens
  • Tokens de saída do GPT-4o-mini: $1,60 por 1 milhão de tokens
  • Inserções: US$ 0,02 por 1.000 tokens. Você não está usando uma base de dados de conhecimento com exemplos de treinamento, portanto, nenhum encargo de inserção é aplicado. Se você adicionou exemplos rotulados para melhorar a precisão, o sistema adicionará o uso de token de inserção para inserir todo o texto dos documentos de entrada, bem como tokens de entrada de conclusão para processar dados de exemplo adicionados à janela de contexto.

Cálculo de custo:

  • Extração de conteúdo: 1.000 páginas × US$ 5,00 por 1.000 páginas = US$ 5,00
  • Contextualização: 1.000.000 tokens × $1,00 por 1 milhão de tokens = $1,00
  • Tokens de entrada: 1.100.000 tokens × $0,40 por 1M tokens = $0,44
  • Tokens de saída: 60.000 × US$ 1,60 por 1M tokens = US$ 0,10
  • Inserções: Não usadas = $0,00
Total Cost = $5.00 + $1.00 + $0.44 + $0.10 + $0.00 = $6.54 per 1000 pages

Observação

Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais

Componentes de custo detalhados

Extração de conteúdo

A extração de conteúdo é a primeira etapa essencial para transformar a entrada não estruturada , seja um documento, áudio ou vídeo, em um formato padronizado e reutilizável. Esse processamento fundamental é necessário para todos os recursos generativos e pode ser usado autônomo.

Preços de extração de conteúdo por modalidade:

  • Documentos: três níveis de medidores (mínimo, básico ou padrão) com base na complexidade do processamento
  • Áudio: Transcrição de fala em texto (medidor padrão único, preço por minuto)
  • Vídeo: Extração de quadros, detecção de tomadas e transcrição de fala para texto (medidor padrão único, preço por minuto)
  • Imagens: Sem encargos de extração de conteúdo

Medidores de extração de conteúdo do documento

Para documentos, você é cobrado pelo tipo de processamento que o Content Understanding executa:

Medidor básico: aplica-se quando o Content Understanding executa o processamento de OCR para extrair texto de documentos baseados em imagem (PDFs verificados, imagens, TIFFs).

Medidor padrão: aplica-se quando o Content Understanding executa a análise de layout, incluindo reconhecimento de tabela e detecção de elementos estruturais de documentos baseados em imagem (PDFs verificados, imagens, TIFFs).

Medidor mínimo: aplica-se a documentos digitais (DOCX, XLSX, HTML, TXT) em que nenhum processamento de OCR ou layout é necessário. Você é cobrado pela taxa mínima, independentemente de qual analisador você usa, mesmo que chame um analisador de layout em um documento digital, você será cobrado apenas pelo processamento mínimo executado.

A tabela a seguir mostra qual medidor se aplica com base no tipo de arquivo e no nível de análise:

Tipo de arquivo Leitura (Básico) Layout (Padrão)
Baseado em imagem (PDF, PNG, TIFF, JPG etc.) Medidor básico Medidor padrão
Formatos digitais (DOCX, XLSX, HTML, TXT etc.) Medidor mínimo Medidor mínimo

Dica

O medidor cobrado depende do processamento que a Compreensão de Conteúdo realmente executa, não de qual analisador você escolher. Os documentos digitais sempre usam o medidor mínimo porque não exigem OCR ou processamento de layout.

Capacidades de geração

Os recursos generativos do Content Understanding usam modelos de IA generativos para melhorar a qualidade da saída. Na versão mais recente da API [2025-11-01], você pode escolher um modelo de geração com base em seu caso de uso (por exemplo, GPT-4o ou GPT-4o-mini).

Quando você usa quaisquer funcionalidades de geração, a Compreensão de Conteúdo usará a implantação de modelos da Fábrica que você fornece. O uso do token para os modelos de conclusão ou incorporações será feito nessa implantação.

Tokens de contextualização

A contextualização é a camada de processamento do Content Understanding que prepara o contexto para modelos generativos e pós-processa sua saída para os resultados estruturados finais.

O que a contextualização fornece:

  • Normalização e formatação de saída em esquemas estruturados
  • Fundamentação de origem para mostrar de onde vieram as informações
  • Cálculo de pontuação de confiança para confiabilidade de extração
  • Engenharia de contexto para otimizar o uso e a precisão do LLM

Quando você é cobrado: sempre que você usa recursos generativos (extração de campos, análise de figuras, segmentação, categorização, treinamento).

Preço: taxa fixa por unidade de conteúdo

Os tokens de contextualização são calculados por unidade de conteúdo:

Unidades Tokens de contextualização Preço Padrão Efetivo por unidade
1 Página 1.000 tokens de contextualização $1 por 1.000 páginas
1 Imagem 1.000 tokens de contextualização US$ 1 por 1.000 imagens
Áudio de 1 hora 100.000 tokens de contextualização US$ 0,10 por hora
Vídeo de 1 hora 1.000.000 tokens de contextualização $1 por hora

Supondo US$ 1,00 por 1 milhão de tokens de contextualização.

Custos de modelo generativo (LLM)

Cobranças baseadas em tokens dos modelos da Fábrica que impulsionam a extração, análise e outras funcionalidades reais de geração de campo.

Os tokens de entrada incluem:

  • Texto e transcrições extraídos
  • Tokens de imagem (para análise visual)
  • Suas definições de esquema
  • Prompts do sistema
  • Exemplos de treinamento (ao usar a base de dados de conhecimento)

Os tokens de saída incluem:

  • Valores de campo e dados estruturados
  • Pontuações de confiança e vinculação à fonte
  • Resultados e descrições da análise

Otimização de custo: escolha modelos menores (GPT-4o-mini) ou implantações globais para uma economia significativa.

Encargos de inserção

Cobranças baseadas em tokens para modelos de incorporação usados no treinamento de analisadores personalizados com exemplos rotulados para melhorar a precisão.

  • Quando cobrado: somente ao usar o recurso de treinamento com dados rotulados
  • Modelos: text-embedding-3-large, text-embedding-3-small, ou text-embedding-ada-002
  • Uso típico: o documento inteiro está inserido. O uso pode variar dependendo da densidade do texto, mas cerca de 1.500 tokens por página são uma boa estimativa inicial.

Detalhes do recurso generativo

Há vários recursos generativos, cada um deles com implicações de custo ligeiramente diferentes.

Extração de campo

Gera pares chave-valor estruturados com base na definição de esquema. Os exemplos incluem remetente/receptor de fatura, itens de linha ou elementos de anúncio de vídeo, como o slogan e a aparência do produto.

Impacto de custo: os encargos são dimensionados com a complexidade do esquema e o tamanho do conteúdo.

Análise de figura

Cria texto descritivo para imagens, gráficos e diagramas para tornar o conteúdo visual pesquisável em fluxos de trabalho RAG.

Impacto de custo: tokens LLM por imagem analisada – tokens de entrada para interpretação de imagem e tokens de saída para descrições. O uso aumenta conforme o tamanho e a quantidade de imagens contidas no documento.

Segmentação

Divide documentos ou vídeos em seções lógicas para processamento direcionado e eficiência aprimorada.

Impacto de custo: custos de token de saída para cada segmento criado. Opcionalmente, você pode encadear analisadores para análise adicional em cada segmento. Ao encadear, você incorre em mais extração de conteúdo e uso generativo, similar a executar os analisadores encadeados de forma independente.

Categorização

Atribui rótulos a documentos ou segmentos para classificação e roteamento inteligente para analisadores especializados.

Impacto de custo: LLM e custos de contextualização para classificação. O roteamento para outros analisadores adiciona seus respectivos encargos.

Training

Cria analisadores personalizados usando exemplos rotulados para aprimoramentos de precisão específicos do domínio.

Impacto de custo: inserindo o uso de token ao adicionar dados rotulados, além de mais tokens LLM durante a análise quando exemplos de treinamento são recuperados e fornecidos ao modelo.

Base de dados de conhecimento

Aprimora analisadores personalizados com exemplos de treinamento rotulados para aumentar a precisão específica do domínio.

Impacto de custo: o modelo de inserções é usado para indexar e recuperar os exemplos. Além disso, os tokens LLM são usados durante a análise quando exemplos de treinamento são recuperados e fornecidos para o modelo.

Perguntas frequentes

Quando sou cobrado pelo uso de LLM?

Você é cobrado por tokens LLM somente quando fornece ao analisador uma implantação da Fábrica e usa uma funcionalidade de geração na Compreensão de Conteúdo. Os analisadores que executam apenas a extração de conteúdo (por exemplo prebuilt-read, prebuilt-layout, ou analisadores personalizados sem recursos de geração) não incorrem em encargos LLM.

Sou cobrado duas vezes pelo uso do modelo do Foundry?

Não. A Compreensão de Conteúdo usa as implantações LLM vinculadas para todas as chamadas LLM e de incorporação. Você é cobrado por essas implantações. Você paga a Compreensão de Conteúdo para extração e contextualização de conteúdo e Fábrica para os tokens de modelo generativos (tokens de entrada/saída e inserções).

Quanto posso economizar com modelos menores?

Escolher GPT-4o-mini em vez de GPT-4o pode reduzir os custos de LLM em até 80%. As implantações globais fornecem uma economia adicional de 9%. Os encargos de extração e contextualização de conteúdo permanecem os mesmos, independentemente da escolha do modelo.

O que aumenta o uso de token?

Vários recursos multiplicam o consumo de token:

  • Fundamento de origem + pontuações de confiança: ~2x uso de token
  • Modo extrativo: uso de tokens ~1,5x
  • Exemplos de treinamento: ~2x uso de tokens
  • Segmentação/categorização: uso de tokens ~2x

Sou cobrado se minha solicitação falhar?

O Reconhecimento de Conteúdo não cobra por extração ou contextualização de conteúdo quando uma solicitação falha com um erro (como um erro 400). No entanto, se uma chamada para um modelo de conclusão da Fábrica tiver sido bem-sucedida como parte dessa solicitação antes da falha ocorrer, você será cobrado pelo uso do modelo da Fábrica de acordo com as políticas de cobrança da Fábrica.

Dicas de otimização de custos

  • Comece com mini modelos – GPT-4o-mini oferece economias substanciais para a maioria das tarefas de extração
  • Usar implantações globais quando a residência e a conformidade de dados permitirem
  • Habilitar recursos avançados seletivamente – use apenas fundamentação de origem e escores de confiança quando necessário
  • Testar arquivos representativos antes de dimensionar para entender o consumo real de token
  • Monitorar o uso regularmente por meio do portal do Azure para identificar oportunidades de otimização

Mais exemplos de preços

Aqui estão exemplos detalhados mostrando como os preços funcionam em diferentes cenários:

Exemplo 1: Processamento de documentos para fluxos de trabalho RAG

Cenário: você precisa extrair conteúdo de documentos para uma solução de Geração Aumentada por Recuperação (RAG). Você usa prebuilt-documentSearch para extrair descrições de texto, de layout e de figuras.

Entrada:

  • 1.000 páginas
  • Modelo: implantação global GPT-4.1
  • Região: Leste dos EUA

Detalhamento de preços:

  1. Extração de conteúdo: 1.000 páginas

    • Custo: (1.000 / 1.000) × $5.00 = $5.00
  2. Análise de figura:

    Supondo duas figuras por página. Custa cerca de 1.000 tokens de entrada e 200 de saída por figura.

    • Tokens de entrada: 2.000 figuras × 1000 tokens/imagem = 2.000.000 tokens
    • Custo: (2.000.000 / 1.000.000) × $2.00 = $4.00
    • Tokens de saída: 2.000 páginas × 200 tokens/página = 400.000 tokens
    • Custo: (400.000 / 1.000.000) × $8.00 = $3.2
  3. Contextualização: 1.000 páginas × 1.000 tokens/página = 1.000.000 tokens

    • Custo: (1.000.000 / 1.000.000) × $1.00 = $1.00

Custo estimado total: US$ 5,00 + US$ 4 + US$ 3,2 + US$ 1,00 = US$ 13,20

Observação

Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais

Exemplo 2: Processamento de faturas com extração de campos

Cenário: você está automatizando o processamento de fatura usando prebuilt-invoice para extrair dados estruturados (número da fatura, data, fornecedor, total, itens de linha).

Entrada:

  • 1.000 páginas
  • Modelo: Implementação global GPT-4.1-mini (otimização de custo)
  • Recursos: modo extrativo + estimativa de origem + pontuações de confiança
  • Região: Leste dos EUA

Detalhamento de preços:

  1. Extração de conteúdo: 1.000 páginas

    • Custo: (1.000 / 1.000) × $5.00 = $5.00
  2. Extração de campo: com estimativa de origem + confiança habilitada, o uso do token será ~2x a mais por página:

    • Tokens de entrada base: 1.000 páginas × 5.200 tokens/página = 5.200.000 tokens
    • Custo: (5.200.000 / 1.000.000) × $0.40 = $2.08
    • Tokens de saída base: 1.000 páginas × 180 tokens/página = 180.000 tokens
    • Custo: (180.000 / 1.000.000) × $1.60 = $0.29
  3. Contextualização: 1.000 páginas × 1.000 tokens/página = 1.000.000 tokens

    • Custo: (1.000.000 / 1.000.000) × $1.00 = $1.00

Custo estimado total: US$ 5,00 + US$ 2,08 + US$ 0,29 + US$ 1,00 = US$ 8,37

Observação

Usar uma implantação global padrão do GPT-4.1 em vez da versão mini aumentaria o custo de extração de campos em aproximadamente 5 vezes, elevando o total para cerca de USD 33.

Observação

Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais

Exemplo 3: Analisando o conteúdo do vídeo com extração de campo no nível do segmento

Cenário: você está extraindo uma representação estruturada de conteúdo de vídeo para um aplicativo RAG. Para extrair dados estruturados por segmento de vídeo, você pode usar o prebuilt-videoSearch. Segmentos são clipes curtos de 15 a 30 segundos em média, resultando em vários segmentos de saída com um único campo de resumo por segmento.

Entrada:

  • 60 minutos (1 hora) de vídeo
  • Modelo: implantação global GPT-4.1
  • Região: Leste dos EUA

Suposições:

  • Tokens de entrada: 7.500 tokens por minuto (com base em quadros de exemplo, transcrição, prompts de esquema e metaprompts)
  • Tokens de saída: 900 tokens por minuto (assumindo de 10 a 20 campos estruturados curtos por segmento com segmentação automática)
  • Contextualização: 1.000.000 tokens por hora de vídeo

Detalhamento de preços:

  1. Extração de conteúdo: 60 minutos

    • Custo: 60 minutos × $1/hora = $1,00
  2. Extração de campo:

    • Tokens de entrada: 60 minutos × 7.500 tokens/minuto = 450.000 tokens
    • Custo: (450.000 / 1.000.000) × $2.00 = $0.90
    • Tokens de saída: 60 minutos × 900 tokens/minuto = 54.000 tokens
    • Custo: (54.000 / 1.000.000) × $8.00 = $0.43
  3. Contextualização: 1.000.000 tokens por hora

    • Custo: (1.000.000 / 1.000.000) × $1.00 = $1.00

Custo estimado total: US$ 1,00 + US$ 0,90 + US$ 0,43 + US$ 1,00 = US$ 3,33

Observação

O custo real varia de acordo com as especificidades de sua entrada e saída. Esse modelo de cobrança transparente baseado em uso garante que você pague apenas pelo que usa.

Observação

Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais

Exemplo 4: Processamento de gravações de call center de áudio

Cenário: você está analisando gravações de call center usando prebuilt-callCenter para gerar transcrições, diarização do locutor, análise de sentimento e resumos.

Entrada:

  • 60 minutos de áudio
  • Modelo: implantação global GPT-4.1-mini
  • Região: Leste dos EUA

Detalhamento de preços:

  1. Extração de conteúdo: 60 minutos

    • Custo: 60 minutos × $0,36/minuto = $0,36
  2. Extração de campo:

    • Tokens de entrada: 60 minutos × 604 tokens/minuto = 36.240 tokens
    • Custo: (36.240 / 1.000.000) × $0,40 = $0,01
    • Tokens de saída: 60 minutos × 19 tokens/minuto = 1.140 tokens
    • Custo: (1.140 / 1.000.000) × $1.60 = $0.00
  3. Contextualização: 60 minutos × 1.667 tokens/minuto = 100.020 tokens

    • Custo: (100.020 / 1.000.000) × $1.00 = $0.10

Custo estimado total: US$ 0,36 + US$ 0,01 + US$ 0,00 + US$ 0,10 = US$ 0,47

Observação

Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais

Exemplo 5: Processamento de imagens com legendas

Cenário: você está gerando legendas descritivas para imagens de produto usando prebuilt-imageSearch.

Entrada:

  • 1.000 imagens
  • Modelo: implantação global GPT-4.1
  • Região: Leste dos EUA

Detalhamento de preços:

  1. Extração de conteúdo: sem cobrança por imagens

    • Custo: $0,00
  2. Extração de campo:

    • Tokens de entrada: 1.000 imagens × 1.043 tokens/imagem = 1.043.000 tokens
    • Custo: (1.043.000 / 1.000.000) × $2.00 = $2.09
    • Tokens de saída: 1.000 imagens × 170 tokens/imagem = 170.000 tokens
    • Custo: (170.000 / 1.000.000) × $8.00 = $1.36
  3. Contextualização: 1.000 imagens × 1.000 tokens/imagem = 1.000.000 tokens

    • Custo: (1.000.000 / 1.000.000) × $1.00 = $1.00

Custo estimado total: US$ 0,00 + US$ 2,09 + US$ 1,36 + US$ 1,00 = US$ 4,45

Observação

Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais

Próximas etapas