Partilhar via


Preços para Azure Content Understanding em Foundry Tools

Este artigo explica o modelo de preços Azure Content Understanding in Foundry Tools, com exemplos claros e divisões de custos. Saiba pelo que lhe é cobrado e como estimar os custos para a sua carga de trabalho.

Para taxas de preços específicas, consulte Azure Content Understanding Pricing.

Compreender os dois tipos de acusações

O preço do Azure Content Understanding baseia-se em duas categorias principais de uso:

1. Encargos de extração de conteúdo

A extração de conteúdo transforma a entrada não estruturada (documentos, áudio, vídeo) em texto e conteúdo estruturados e pesquisáveis. Esta saída inclui reconhecimento ótico de caracteres (OCR) para documentos, voz para texto para áudio/vídeo e deteção de layout. Paga por unidade de entrada processada:

  • Documentos: Por 1.000 páginas
  • Áudio e Vídeo: Por minuto

Custos de funcionalidades gerativas

Quando utiliza recursos alimentados por IA que utilizam grandes modelos de linguagem (LLMs), incorre em dois tipos de custos.

  • Processos de contextualização: Prepara o contexto, gera pontuações de confiança, análise da fonte e formatação de saída. Para mais detalhes, veja Tokens de contextualização.
  • Encargos do modelo generativo: Custos baseados em tokens provenientes de implementações do modelo Microsoft Foundry (LLMs para geração, embeddings para exemplos de treino). A Content Understanding utiliza a implementação do modelo Foundry que fornece para todas as chamadas relacionadas com IA generativa. Não verá qualquer LLM ou faturação de uso de tokens incorporados no Content Understanding — esse uso aparece na implementação do seu modelo Foundry. Para mais detalhes, veja Cargas do modelo generativo.

As funcionalidades generativas incluem: extração de campo, análise de figuras, segmentação, categorização, treino.

Equação de custos

O seu custo total para executar um analisador de Compreensão de Conteúdo segue esta fórmula:

Total Cost = Content Extraction + Contextualization Tokens + LLM Input Tokens + LLM Output Tokens + Embeddings Tokens

Se só usar extração de conteúdo sem capacidades generativas, é cobrado apenas pela extração de conteúdo. Quando utiliza funcionalidades generativas, aplicam-se todas as cobranças aplicáveis.

Como estimar os seus custos

1. Teste com ficheiros representativos

Execute uma pequena análise de teste com os seus ficheiros e esquema reais. Verifique o usage objeto na resposta da API Analyzers para ver o consumo real de tokens:

  "usage": {
    "documentPagesMinimal": 0, // Pages processed at the minimal level (i.e. txt, xlsx, html, and other digital file types)
    "documentPagesBasic": 0, // Pages processed at the basic level (i.e. read)
    "documentPagesStandard": 2, // Pages processed at the standard level (i.e. layout)
   
    "contextualizationToken": 2000,
    "tokens": {
      "gpt-4.1-input": 10400,
      "gpt-4.1-output": 360,
    }
  }

2. Utilizar a Calculadora de Preços Azure

Encontre Compreensão de Conteúdo no Azure Pricing Calculator e configure as suas definições:

  • Adicione "Compreensão de Conteúdo" à calculadora
  • Use os resultados dos seus testes do passo 1 para calcular médias de tokens por página ou por minuto
  • Introduza as contagens de tokens juntamente com a sua região, tipo de ficheiro, volume esperado e implementação do modelo

A calculadora fornece projeções de custos precisas para a sua carga de trabalho.

Exemplo de preçário: Extração de campo da fatura

Seguindo a abordagem da estimativa, vamos analisar manualmente um exemplo concreto para demonstrar como os custos são calculados. Estás a processar faturas para extrair dados estruturados como o nome do fornecedor, número da fatura, montante total e itens de linha.

Cenário: Quer processar 1.000 páginas de faturas usando GPT-4o-mini com a base de fonte e as pontuações de confiança desativadas.

Passo 1: Teste com ficheiros representativos Após testar ficheiros representativos, encontrou a seguinte utilização média de tokens por página:

  • Tokens de entrada: 1.100 por página
  • Tokens de saída: 60 por página
  • Contextualização: 1.000 tokens por página (taxa fixa)

Para 1.000 páginas, os totais equivalem a:

  • Total de tokens de entrada: 1.000 páginas × 1.100 = 1.100.000 tokens
  • Total de tokens de saída: 1.000 páginas × 60 = 60.000 tokens
  • Total de tokens de contextualização: 1.000 páginas × 1.000 = 1.000.000 tokens

Passo 2: Calcule os custos manualmente (em vez de usar a calculadora de preços) Utilização da implementação global do GPT-4o-mini com as seguintes suposições de preços:

Suposições de preços :

  • Extração de conteúdo: $5,00 por 1.000 páginas
  • Contextualização: $1,00 por 1M de tokens
  • Tokens de entrada GPT-4o-mini: $0,40 por cada token de 1M
  • Tokens de saída GPT-4o-mini: 1,60 USD por 1M de tokens
  • Embeddings: $0,02 por cada 1.000 tokens. Não estás a usar uma base de conhecimento com exemplos de treino, por isso não se aplicam encargos de embeddings. Se adicionares exemplos rotulados para melhorar a precisão, o sistema adicionará a utilização de tokens de embedding para incorporar todo o texto dos documentos de entrada, bem como tokens de entrada de conclusão para processar dados de exemplo adicionados à janela de contexto.

Cálculo de custos:

  • Extração de conteúdo: 1.000 páginas × $5,00 por 1.000 páginas = $5,00
  • Contextualização: 1.000.000 de tokens × $1,00 por cada token de 1M = $1,00
  • Tokens de entrada: 1.100.000 tokens × $0,40 por cada 1M tokens = $0,44
  • Tokens de saída: 60.000 tokens × $1,60 por cada token de 1M = $0,10
  • Embeddings: Não utilizados = $0,00
Total Cost = $5.00 + $1.00 + $0.44 + $0.10 + $0.00 = $6.54 per 1000 pages

Observação

Estes preços servem apenas para fins ilustrativos e não pretendem representar o custo real. Consulte Azure Content Understanding Pricing e Azure OpenAI Pricing para as taxas atuais

Componentes de custo detalhados

Extração de conteúdo

A extração de conteúdo é o primeiro passo essencial para transformar a entrada não estruturada — seja um documento, áudio ou vídeo — num formato padronizado e reutilizável. Este processamento fundamental é necessário para todas as funcionalidades generativas e pode ser usado isoladamente.

Precificação de extração de conteúdo por modalidade:

  • Documentos: Três medidores escalonados (mínimo, básico ou padrão) baseados na complexidade do processamento
  • Áudio: Transcrição de voz para texto (medidor padrão único, preço por minuto)
  • Vídeo: Extração de fotogramas, deteção de planos e transcrição de voz para texto (medidor padrão único, preço por minuto)
  • Imagens: Sem custos de extração de conteúdo

Medidores de extração de conteúdo de documentos

Para os documentos, é cobrado pelo tipo de processamento que o Content Understanding realiza:

Medidor básico: Aplica-se quando o Content Understanding realiza processamento OCR para extrair texto de documentos baseados em imagens (PDFs digitalizados, imagens, TIFFs).

Medidor padrão: Aplica-se quando o Content Understanding realiza análise de layout, incluindo reconhecimento de tabelas e deteção de elementos estruturais a partir de documentos baseados em imagens (PDFs digitalizados, imagens, TIFFs).

Medidor mínimo: Aplica-se a documentos digitais (DOCX, XLSX, HTML, TXT) onde não é necessário OCR ou processamento de layout. É-lhe cobrada a taxa mínima independentemente do analisador que utilize—mesmo que chame um analisador de layout num documento digital, só é cobrado pelo processamento mínimo realizado.

A tabela seguinte mostra qual o medidor aplicado com base no tipo de ficheiro e nível de análise:

Tipo de Arquivo: Ler (Básico) Disposição (Padrão)
Baseado em imagens (PDF, PNG, TIFF, JPG, etc.) Medidor básico Medidor padrão
Formatos digitais (DOCX, XLSX, HTML, TXT, etc.) Medidor mínimo Medidor mínimo

Sugestão

O contador cobrado depende do processamento que o Content Understanding de facto realiza, e não do analisador que escolher. Documentos digitais usam sempre o medidor mínimo porque não requerem OCR nem processamento de layout.

Capacidades generativas

As capacidades generativas da Compreensão de Conteúdos utilizam modelos de IA generativa para melhorar a qualidade do resultado. Na versão mais recente da API [2025-11-01], pode escolher um modelo generativo com base no seu caso de uso (ex. GPT-4o ou GPT-4o-mini).

Quando utilizar qualquer capacidade generativa, Content Understanding irá utilizar a implementação dos modelos Foundry que você fornece. A utilização do token para os modelos de completação ou embeddings estará nessa implementação.

Tokens de contextualização

A contextualização é a camada de processamento da Content Understanding que prepara o contexto para modelos generativos e pós-processa a sua saída nos resultados estruturados finais.

O que a contextualização proporciona:

  • Normalização de saída e formatação em esquemas estruturados
  • Referência da fonte para mostrar a origem da informação
  • Cálculo da pontuação de confiança para a fiabilidade da extração
  • Engenharia de contexto para otimizar o uso e a precisão de LLMs

Quando for cobrado: sempre que utiliza capacidades generativas (extração de campo, análise de figuras, segmentação, categorização, formação).

Preços: Taxa fixa por unidade de conteúdo

Os tokens de contextualização são calculados por unidade de conteúdo:

Units Tokens de contextualização Preço Padrão Efetivo por unidade
1 página 1.000 tokens de contextualização $1 por cada 1.000 páginas
1 Imagem 1.000 tokens de contextualização $1 por cada 1.000 imagens
Áudio de 1 hora 100.000 tokens de contextualização $0,10 por hora
Vídeo de 1 hora 1.000.000 de tokens de contextualização 1 dólar por hora

Assumindo $1,00 por cada 1 milhão de tokens de contextualização.

Cargas do modelo generativo (LLM)

Cobranças baseadas em tokens provenientes de modelos Foundry que alimentam a extração real do campo, análise e outras capacidades gerativas.

Os tokens de entrada incluem:

  • Texto extraído e transcrições
  • Tokens de imagem (para análise visual)
  • As suas definições de esquemas
  • Prompts do sistema
  • Exemplos de treino (quando se utiliza base de conhecimento)

Os tokens de saída incluem:

  • Valores de campo e dados estruturados
  • Pontuações de confiança e fundamentação da fonte
  • Resultados e descrições da análise

Otimização de custos: Escolha modelos mais pequenos (GPT-4o-mini) ou implementações globais para poupanças significativas.

Cargas de embeddings

Cobranças baseadas em tokens para integração de modelos usados ao treinar analisadores personalizados com exemplos etiquetados para melhorar a precisão.

  • Quando carregado: Apenas ao usar a funcionalidade de treino com dados rotulados
  • Modelos: text-embedding-3-large, text-embedding-3-small, ou text-embedding-ada-002
  • Uso típico: Todo o documento está incorporado. O uso pode variar consoante a densidade do texto, mas ~1.500 tokens por página é uma boa estimativa inicial.

Detalhes das funcionalidades generativas

Existem várias funcionalidades generativas, cada uma com implicações de custo ligeiramente diferentes.

Extração de campo

Gera pares estruturados chave-valor com base na definição do seu esquema. Exemplos incluem o remetente/recetor da fatura, itens de linha ou elementos de anúncios em vídeo como slogan e aparência do produto.

Impacto no custo: As cobranças escalam com a complexidade do esquema e o tamanho do conteúdo.

Análise de gráficos

Cria texto descritivo para imagens, gráficos e diagramas para tornar o conteúdo visual pesquisável nos fluxos de trabalho RAG.

Impacto no custo: Tokens LLM por imagem analisada – tanto tokens de entrada para interpretação de imagem como tokens de saída para descrições. A utilização pode variar com o tamanho e o número de imagens contidas no documento.

Segmentação

Divide documentos ou vídeos em secções lógicas para processamento direcionado e maior eficiência.

Impacto no custo: Custos de token de saída para cada segmento criado. Opcionalmente, podes encadear analisadores para análises adicionais em cada segmento. Ao encadear, incorre em mais extração de conteúdo e utilização generativa, equivalente a executar os analisadores encadeados de forma independente.

Categorização

Atribui rótulos a documentos ou segmentos para classificação e encaminhamento inteligente a analisadores especializados.

Impacto de custos: LLM e custos de contextualização para classificação. O redirecionamento para outro analisador adiciona as respetivas taxas.

Formação

Constrói analisadores customizados usando exemplos rotulados para melhorias específicas de precisão no domínio.

Impacto no custo: Incorporar o uso de tokens ao adicionar dados rotulados, além de mais tokens LLM durante a análise quando os exemplos de treino são recuperados e fornecidos ao modelo.

Base de dados de conhecimento

Melhora analisadores personalizados com exemplos de treino rotulados para melhorias de precisão específicas do domínio.

Impacto de custo: O modelo de embeddings é utilizado para indexar e recuperar as amostras. Além disso, os tokens LLM são usados durante a análise quando exemplos de treino são recuperados e fornecidos ao modelo.

Perguntas frequentes

Quando é que me cobram pelo uso do LLM?

É cobrado pelos tokens LLM apenas quando fornece ao analisador uma implementação no Foundry e utiliza uma capacidade generativa em Content Understanding. Analisadores que apenas realizam extração de conteúdo (ex. prebuilt-read, prebuilt-layout, ou analisadores personalizados sem qualquer capacidade generativa) não incorrem em encargos de LLM.

Cobram-me duas vezes pelo uso do modelo Foundry?

Não. A Content Understanding utiliza as implementações de LLMs ligadas para todas as chamadas de LLM e embedding. É cobrado por essas implementações. Pagas à Content Understanding pela extração de conteúdo e contextualização, e à Foundry pelos tokens do modelo generativo (tokens de entrada/saída e embeddings).

Quanto posso poupar com modelos mais pequenos?

Escolher GPT-4o-mini em vez de GPT-4o pode reduzir os custos dos LLMs até 80%. As implantações globais proporcionam poupanças adicionais de 9%. As taxas de extração de conteúdo e contextualização mantêm-se as mesmas independentemente da escolha do modelo.

O que aumenta o uso de tokens?

Várias funcionalidades multiplicam o consumo de tokens:

  • Fundamentação da fonte + pontuações de confiança: ~2x utilização de tokens
  • Modo extrativo: ~1,5x de utilização de tokens
  • Exemplos de treino: ~2x utilização de tokens
  • Segmentação/categorização: ~2x utilização de tokens

Serei cobrado se o meu pedido falhar?

A Content Understanding não cobra pela extração de conteúdo ou contextualização quando um pedido falha com um erro (como um erro 400). No entanto, se uma chamada para um modelo de conclusão da Foundry tiver tido sucesso como parte desse pedido antes da falha, será aplicada a cobrança pela utilização do modelo de acordo com as políticas de faturação da Foundry.

Sugestões de otimização de custos

  • Comece pelos modelos mini – o GPT-4o-mini oferece poupanças substanciais para a maioria das tarefas de extração
  • Use implementações globais quando a residência e conformidade de dados o permitirem
  • Ativar funcionalidades avançadas seletivamente - Usar apenas a base da fonte e as pontuações de confiança quando necessário
  • Teste ficheiros representativos antes de escalar para compreender o consumo real de tokens
  • Monitorize a utilização regularmente através do portal Azure para identificar oportunidades de otimização

Mais exemplos de preços

Aqui estão exemplos detalhados que mostram como funciona o preço em diferentes cenários:

Exemplo 1: Processamento de documentos para fluxos de trabalho RAG

Cenário: É necessário extrair conteúdo de documentos para uma solução de Geração Incrementada por Recuperação (RAG). Usas prebuilt-documentSearch para extrair texto, layout e descrições de figuras.

Entrada:

  • 1.000 páginas
  • Modelo: Implementação global do GPT-4.1
  • Região: Leste dos EUA

Distribuição de preços:

  1. Extração de conteúdo: 1.000 páginas

    • Custo: (1.000 / 1.000) × $5,00 = $5,00
  2. Análise de figuras:

    Assumindo dois números por página. Custa cerca de 1000 tokens de entrada e 200 tokens de saída por figura.

    • Fichas de entrada: 2.000 figuras × 1000 fichas/imagem = 2.000.000 fichas
    • Custo: (2.000.000 / 1.000.000) × 2,00 $ = 4,00 $
    • Tokens de saída: 2.000 páginas × 200 tokens/página = 400.000 tokens
    • Custo: (400.000 / 1.000.000) × 8,00 $ = 3,2 $
  3. Contextualização: 1.000 páginas × 1.000 tokens/página = 1.000.000 tokens

    • Custo: (1.000.000 / 1.000.000) × $1,00 = $1,00

Custo total estimado: $5,00 + $4 + $3,2 + $1,00 = $13,20

Observação

Estes preços servem apenas para fins ilustrativos e não pretendem representar o custo real. Consulte Azure Content Understanding Pricing e Azure OpenAI Pricing para as taxas atuais

Exemplo 2: Processar faturas com extração de campos

Cenário: Está a automatizar o processamento de faturas usando prebuilt-invoice para extrair dados estruturados (número de fatura, data, fornecedor, total, itens da linha de detalhes).

Entrada:

  • 1.000 páginas
  • Modelo: GPT-4.1-mini, implementação global (otimização de custos)
  • Características: Modo extrativo + estimativa da fonte + pontuações de confiança
  • Região: Leste dos EUA

Distribuição de preços:

  1. Extração de conteúdo: 1.000 páginas

    • Custo: (1.000 / 1.000) × $5,00 = $5,00
  2. Extração de campo: com estimativa da fonte + confiança ativada, o uso do token será ~2x superior por página:

    • Tokens base de entrada: 1.000 páginas × 5.200 tokens/página = 5.200.000 tokens
    • Custo: (5.200.000 / 1.000.000) × $0,40 = $2,08
    • Tokens base de saída: 1.000 páginas × 180 tokens/página = 180.000 tokens
    • Custo: (180.000 / 1.000.000) × $1,60 = $0,29
  3. Contextualização: 1.000 páginas × 1.000 tokens/página = 1.000.000 tokens

    • Custo: (1.000.000 / 1.000.000) × $1,00 = $1,00

Custo total estimado: $5,00 + $2,08 + $0,29 + $1,00 = $8,37

Observação

A utilização de uma implementação global padrão do GPT-4.1 em vez de mini aumentaria o custo de extração no campo em aproximadamente 5 vezes, elevando o total para aproximadamente 33 dólares.

Observação

Estes preços servem apenas para fins ilustrativos e não pretendem representar o custo real. Consulte Azure Content Understanding Pricing e Azure OpenAI Pricing para as taxas atuais

Exemplo 3: Análise de conteúdo de vídeo com extração de campo ao nível de segmento

Cenário: Está a extrair uma representação estruturada de conteúdo de vídeo para uma aplicação RAG. Para extrair dados estruturados por segmento de vídeo, pode usar o prebuilt-videoSearch. Os segmentos são clipes curtos com uma duração média de 15-30 segundos, resultando em numerosos segmentos de saída com um único campo de resumo por segmento.

Entrada:

  • 60 minutos (1 hora) de vídeo
  • Modelo: Implementação global do GPT-4.1
  • Região: Leste dos EUA

Suposições:

  • Tokens de entrada: 7 500 tokens por minuto (baseados em quadros amostrados, transcrição, prompts de esquema e metapromptas)
  • Tokens de saída: 900 tokens por minuto (assumindo 10-20 campos estruturados curtos por segmento com segmentação automática)
  • Contextualização: 1.000.000 de tokens por hora de vídeo

Distribuição de preços:

  1. Extração de conteúdo: 60 minutos

    • Custo: 60 minutos × $1/hora = $1,00
  2. Extração de campo:

    • Fichas de entrada: 60 minutos × 7.500 fichas/minuto = 450.000 fichas
    • Custo: (450.000 / 1.000.000) × $2,00 = $0,90
    • Tokens de saída: 60 minutos × 900 tokens/minuto = 54.000 tokens
    • Custo: (54.000 / 1.000.000) × $8,00 = $0,43
  3. Contextualização: 1.000.000 de tokens por hora

    • Custo: (1.000.000 / 1.000.000) × $1,00 = $1,00

Custo total estimado: $1,00 + $0,90 + $0,43 + $1,00 = $3,33

Observação

O custo real varia consoante as especificidades da sua entrada e saída. Este modelo de faturação transparente e baseado na utilização garante que só paga pelo que utiliza.

Observação

Estes preços servem apenas para fins ilustrativos e não pretendem representar o custo real. Consulte Azure Content Understanding Pricing e Azure OpenAI Pricing para as taxas atuais

Exemplo 4: Processamento de gravações áudio de call center

Cenário: Estás a analisar gravações de call center para prebuilt-callCenter gerar transcrições, diarização de oradores, análise de sentimentos e resumos.

Entrada:

  • 60 minutos de áudio
  • Modelo: GPT-4.1-mini implementação global
  • Região: Leste dos EUA

Distribuição de preços:

  1. Extração de conteúdo: 60 minutos

    • Custo: 60 minutos × $0,36/minuto = $0,36
  2. Extração de campo:

    • Fichas de entrada: 60 minutos × 604 fichas/minuto = 36.240 fichas
    • Custo: (36.240 / 1.000.000) × $0,40 = $0,01
    • Tokens de saída: 60 minutos × 19 tokens/minuto = 1.140 tokens
    • Custo: (1.140 / 1.000.000) × $1,60 = $0,00
  3. Contextualização: 60 minutos × 1.667 tokens/minuto = 100.020 tokens

    • Custo: (100.020 / 1.000.000) × $1,00 = $0,10

Custo total estimado: $0,36 + $0,01 + $0,00 + $0,10 = $0,47

Observação

Estes preços servem apenas para fins ilustrativos e não pretendem representar o custo real. Consulte Azure Content Understanding Pricing e Azure OpenAI Pricing para as taxas atuais

Exemplo 5: Processamento de imagens com legendas

Cenário: Está a criar legendas descritivas para imagens de produtos usando prebuilt-imageSearch.

Entrada:

  • 1.000 imagens
  • Modelo: Implementação global do GPT-4.1
  • Região: Leste dos EUA

Distribuição de preços:

  1. Extração de conteúdo: Sem custos pelas imagens

    • Custo: $0,00
  2. Extração de campo:

    • Tokens de entrada: 1.000 imagens × 1.043 tokens/imagem = 1.043.000 tokens
    • Custo: (1.043.000 / 1.000.000) × $2,00 = $2,09
    • Tokens de saída: 1.000 imagens × 170 tokens/imagem = 170.000 tokens
    • Custo: (170.000 / 1.000.000) × 8,00 $ = 1,36 $
  3. Contextualização: 1.000 imagens × 1.000 tokens/imagem = 1.000.000 tokens

    • Custo: (1.000.000 / 1.000.000) × $1,00 = $1,00

Custo total estimado: $0,00 + $2,09 + $1,36 + $1,00 = $4,45

Observação

Estes preços servem apenas para fins ilustrativos e não pretendem representar o custo real. Consulte Azure Content Understanding Pricing e Azure OpenAI Pricing para as taxas atuais

Próximos passos