Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo explica o modelo de preços do Azure Content Understanding in Foundry Tools com exemplos claros e detalhamentos de custos. Saiba pelo que você é cobrado e como estimar os custos para sua carga de trabalho.
Para obter taxas de preços específicas, consulte Preços de Compreensão de Conteúdo do Azure.
Noções básicas sobre os dois tipos de encargos
O preço do Azure Content Understanding baseia-se em duas categorias de uso principais:
1. Encargos de extração de conteúdo
A extração de conteúdo transforma entradas não estruturadas (documentos, áudio, vídeo) em texto e conteúdo estruturados e pesquisáveis. Essa saída inclui o OCR (reconhecimento óptico de caracteres) para documentos, conversão de fala em texto para áudio/vídeo e detecção de layout. Você paga por unidade de entrada processada:
- Documentos: a cada 1.000 páginas
- Áudio e vídeo: por minuto
2. Encargos de recursos generativos
Ao usar recursos com tecnologia de IA que chamam LLMs (grandes modelos de linguagem), você incorre em dois tipos de custos:
- Encargos de contextualização: preparar o contexto, gerar pontuações de confiança, fundamentar a fonte e formatar a saída. Para obter detalhes, consulte tokens de contextualização.
- Encargos de modelo generativo: custos baseados em token de implantações de modelo da Fábrica da Microsoft (LLMs para geração, inserções para exemplos de treinamento). A Compreensão de Conteúdo usa a implantação de modelo da Fábrica que você fornece para todas as chamadas relacionadas à IA. Você não verá nenhuma LLM ou cobrança de uso de token inserida na Compreensão de Conteúdo— esse uso aparece em sua implantação de modelo da Fábrica. Para obter detalhes, consulte os encargos do modelo generativo.
Os recursos generativos incluem: extração de campo, análise de figura, segmentação, categorização, treinamento.
Equação de custo
O custo total para executar um analisador de Compreensão de Conteúdo segue esta fórmula:
Total Cost = Content Extraction + Contextualization Tokens + LLM Input Tokens + LLM Output Tokens + Embeddings Tokens
Se você usar apenas a extração de conteúdo sem recursos de geração, será cobrado apenas pela extração de conteúdo. Quando você usa recursos generativos, todos os encargos aplicáveis se aplicam.
Como estimar seus custos
1. Testar com arquivos representativos
Execute uma pequena análise de teste com seus arquivos e esquemas reais. Verifique o objeto usage na resposta da API de Analisadores para ver o consumo real de token.
"usage": {
"documentPagesMinimal": 0, // Pages processed at the minimal level (i.e. txt, xlsx, html, and other digital file types)
"documentPagesBasic": 0, // Pages processed at the basic level (i.e. read)
"documentPagesStandard": 2, // Pages processed at the standard level (i.e. layout)
"contextualizationToken": 2000,
"tokens": {
"gpt-4.1-input": 10400,
"gpt-4.1-output": 360,
}
}
2. Usar a Calculadora de Preços do Azure
Encontre o Entendimento de Conteúdo na Calculadora de Preços do Azure e defina suas configurações:
- Adicionar "Compreensão de Conteúdo" à calculadora
- Use os resultados do teste da etapa 1 para calcular as médias de token por página ou por minuto
- Insira contagens de token junto com sua região, tipo de arquivo, volume esperado e implantação de modelo
A calculadora fornece projeções de custo precisas para sua carga de trabalho.
Exemplo de preços: extração de campo da fatura
Seguindo a abordagem de estimativa, vamos percorrer um exemplo concreto manualmente para demonstrar como os custos são calculados. Você está processando faturas para extrair dados estruturados, como nome do fornecedor, número da fatura, valor total e itens de linha.
Cenário: você deseja processar 1.000 páginas de fatura usando o GPT-4o-mini com o fundamento da origem e as pontuações de confiança desabilitadas.
Etapa 1: Testar com arquivos representativos Depois de testar arquivos representativos, você encontrou o seguinte uso médio de token por página:
- Tokens de entrada: 1.100 por página
- Tokens de saída: 60 por página
- Contextualização: 1.000 tokens por página (taxa fixa)
Para 1.000 páginas, os totais são iguais:
- Total de tokens de entrada: 1.000 páginas × 1.100 = 1.100.000 tokens
- Total de tokens de saída: 1.000 páginas × 60 = 60.000 tokens
- Total de tokens de contextualização: 1.000 páginas × 1.000 = 1.000.000 tokens
Etapa 2: calcular os custos manualmente (em vez de usar a calculadora de preços) Usando a implantação global gpt-4o-mini com as seguintes suposições de preços:
Suposições de preços :
- Extração de conteúdo: US$ 5,00 por 1.000 páginas
- Contextualização: $1,00 por 1 milhão de tokens
- Tokens de entrada GPT-4o-mini: $0,40 por 1 milhão de tokens
- Tokens de saída do GPT-4o-mini: $1,60 por 1 milhão de tokens
- Inserções: US$ 0,02 por 1.000 tokens. Você não está usando uma base de dados de conhecimento com exemplos de treinamento, portanto, nenhum encargo de inserção é aplicado. Se você adicionou exemplos rotulados para melhorar a precisão, o sistema adicionará o uso de token de inserção para inserir todo o texto dos documentos de entrada, bem como tokens de entrada de conclusão para processar dados de exemplo adicionados à janela de contexto.
Cálculo de custo:
- Extração de conteúdo: 1.000 páginas × US$ 5,00 por 1.000 páginas = US$ 5,00
- Contextualização: 1.000.000 tokens × $1,00 por 1 milhão de tokens = $1,00
- Tokens de entrada: 1.100.000 tokens × $0,40 por 1M tokens = $0,44
- Tokens de saída: 60.000 × US$ 1,60 por 1M tokens = US$ 0,10
- Inserções: Não usadas = $0,00
Total Cost = $5.00 + $1.00 + $0.44 + $0.10 + $0.00 = $6.54 per 1000 pages
Observação
Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais
Componentes de custo detalhados
Extração de conteúdo
A extração de conteúdo é a primeira etapa essencial para transformar a entrada não estruturada , seja um documento, áudio ou vídeo, em um formato padronizado e reutilizável. Esse processamento fundamental é necessário para todos os recursos generativos e pode ser usado autônomo.
Preços de extração de conteúdo por modalidade:
- Documentos: três níveis de medidores (mínimo, básico ou padrão) com base na complexidade do processamento
- Áudio: Transcrição de fala em texto (medidor padrão único, preço por minuto)
- Vídeo: Extração de quadros, detecção de tomadas e transcrição de fala para texto (medidor padrão único, preço por minuto)
- Imagens: Sem encargos de extração de conteúdo
Medidores de extração de conteúdo do documento
Para documentos, você é cobrado pelo tipo de processamento que o Content Understanding executa:
Medidor básico: aplica-se quando o Content Understanding executa o processamento de OCR para extrair texto de documentos baseados em imagem (PDFs verificados, imagens, TIFFs).
Medidor padrão: aplica-se quando o Content Understanding executa a análise de layout, incluindo reconhecimento de tabela e detecção de elementos estruturais de documentos baseados em imagem (PDFs verificados, imagens, TIFFs).
Medidor mínimo: aplica-se a documentos digitais (DOCX, XLSX, HTML, TXT) em que nenhum processamento de OCR ou layout é necessário. Você é cobrado pela taxa mínima, independentemente de qual analisador você usa, mesmo que chame um analisador de layout em um documento digital, você será cobrado apenas pelo processamento mínimo executado.
A tabela a seguir mostra qual medidor se aplica com base no tipo de arquivo e no nível de análise:
| Tipo de arquivo | Leitura (Básico) | Layout (Padrão) |
|---|---|---|
| Baseado em imagem (PDF, PNG, TIFF, JPG etc.) | Medidor básico | Medidor padrão |
| Formatos digitais (DOCX, XLSX, HTML, TXT etc.) | Medidor mínimo | Medidor mínimo |
Dica
O medidor cobrado depende do processamento que a Compreensão de Conteúdo realmente executa, não de qual analisador você escolher. Os documentos digitais sempre usam o medidor mínimo porque não exigem OCR ou processamento de layout.
Capacidades de geração
Os recursos generativos do Content Understanding usam modelos de IA generativos para melhorar a qualidade da saída. Na versão mais recente da API [2025-11-01], você pode escolher um modelo de geração com base em seu caso de uso (por exemplo, GPT-4o ou GPT-4o-mini).
Quando você usa quaisquer funcionalidades de geração, a Compreensão de Conteúdo usará a implantação de modelos da Fábrica que você fornece. O uso do token para os modelos de conclusão ou incorporações será feito nessa implantação.
Tokens de contextualização
A contextualização é a camada de processamento do Content Understanding que prepara o contexto para modelos generativos e pós-processa sua saída para os resultados estruturados finais.
O que a contextualização fornece:
- Normalização e formatação de saída em esquemas estruturados
- Fundamentação de origem para mostrar de onde vieram as informações
- Cálculo de pontuação de confiança para confiabilidade de extração
- Engenharia de contexto para otimizar o uso e a precisão do LLM
Quando você é cobrado: sempre que você usa recursos generativos (extração de campos, análise de figuras, segmentação, categorização, treinamento).
Preço: taxa fixa por unidade de conteúdo
Os tokens de contextualização são calculados por unidade de conteúdo:
| Unidades | Tokens de contextualização | Preço Padrão Efetivo por unidade |
|---|---|---|
| 1 Página | 1.000 tokens de contextualização | $1 por 1.000 páginas |
| 1 Imagem | 1.000 tokens de contextualização | US$ 1 por 1.000 imagens |
| Áudio de 1 hora | 100.000 tokens de contextualização | US$ 0,10 por hora |
| Vídeo de 1 hora | 1.000.000 tokens de contextualização | $1 por hora |
Supondo US$ 1,00 por 1 milhão de tokens de contextualização.
Custos de modelo generativo (LLM)
Cobranças baseadas em tokens dos modelos da Fábrica que impulsionam a extração, análise e outras funcionalidades reais de geração de campo.
Os tokens de entrada incluem:
- Texto e transcrições extraídos
- Tokens de imagem (para análise visual)
- Suas definições de esquema
- Prompts do sistema
- Exemplos de treinamento (ao usar a base de dados de conhecimento)
Os tokens de saída incluem:
- Valores de campo e dados estruturados
- Pontuações de confiança e vinculação à fonte
- Resultados e descrições da análise
Otimização de custo: escolha modelos menores (GPT-4o-mini) ou implantações globais para uma economia significativa.
Encargos de inserção
Cobranças baseadas em tokens para modelos de incorporação usados no treinamento de analisadores personalizados com exemplos rotulados para melhorar a precisão.
- Quando cobrado: somente ao usar o recurso de treinamento com dados rotulados
- Modelos: text-embedding-3-large, text-embedding-3-small, ou text-embedding-ada-002
- Uso típico: o documento inteiro está inserido. O uso pode variar dependendo da densidade do texto, mas cerca de 1.500 tokens por página são uma boa estimativa inicial.
Detalhes do recurso generativo
Há vários recursos generativos, cada um deles com implicações de custo ligeiramente diferentes.
Extração de campo
Gera pares chave-valor estruturados com base na definição de esquema. Os exemplos incluem remetente/receptor de fatura, itens de linha ou elementos de anúncio de vídeo, como o slogan e a aparência do produto.
Impacto de custo: os encargos são dimensionados com a complexidade do esquema e o tamanho do conteúdo.
Análise de figura
Cria texto descritivo para imagens, gráficos e diagramas para tornar o conteúdo visual pesquisável em fluxos de trabalho RAG.
Impacto de custo: tokens LLM por imagem analisada – tokens de entrada para interpretação de imagem e tokens de saída para descrições. O uso aumenta conforme o tamanho e a quantidade de imagens contidas no documento.
Segmentação
Divide documentos ou vídeos em seções lógicas para processamento direcionado e eficiência aprimorada.
Impacto de custo: custos de token de saída para cada segmento criado. Opcionalmente, você pode encadear analisadores para análise adicional em cada segmento. Ao encadear, você incorre em mais extração de conteúdo e uso generativo, similar a executar os analisadores encadeados de forma independente.
Categorização
Atribui rótulos a documentos ou segmentos para classificação e roteamento inteligente para analisadores especializados.
Impacto de custo: LLM e custos de contextualização para classificação. O roteamento para outros analisadores adiciona seus respectivos encargos.
Training
Cria analisadores personalizados usando exemplos rotulados para aprimoramentos de precisão específicos do domínio.
Impacto de custo: inserindo o uso de token ao adicionar dados rotulados, além de mais tokens LLM durante a análise quando exemplos de treinamento são recuperados e fornecidos ao modelo.
Base de dados de conhecimento
Aprimora analisadores personalizados com exemplos de treinamento rotulados para aumentar a precisão específica do domínio.
Impacto de custo: o modelo de inserções é usado para indexar e recuperar os exemplos. Além disso, os tokens LLM são usados durante a análise quando exemplos de treinamento são recuperados e fornecidos para o modelo.
Perguntas frequentes
Quando sou cobrado pelo uso de LLM?
Você é cobrado por tokens LLM somente quando fornece ao analisador uma implantação da Fábrica e usa uma funcionalidade de geração na Compreensão de Conteúdo. Os analisadores que executam apenas a extração de conteúdo (por exemplo prebuilt-read, prebuilt-layout, ou analisadores personalizados sem recursos de geração) não incorrem em encargos LLM.
Sou cobrado duas vezes pelo uso do modelo do Foundry?
Não. A Compreensão de Conteúdo usa as implantações LLM vinculadas para todas as chamadas LLM e de incorporação. Você é cobrado por essas implantações. Você paga a Compreensão de Conteúdo para extração e contextualização de conteúdo e Fábrica para os tokens de modelo generativos (tokens de entrada/saída e inserções).
Quanto posso economizar com modelos menores?
Escolher GPT-4o-mini em vez de GPT-4o pode reduzir os custos de LLM em até 80%. As implantações globais fornecem uma economia adicional de 9%. Os encargos de extração e contextualização de conteúdo permanecem os mesmos, independentemente da escolha do modelo.
O que aumenta o uso de token?
Vários recursos multiplicam o consumo de token:
- Fundamento de origem + pontuações de confiança: ~2x uso de token
- Modo extrativo: uso de tokens ~1,5x
- Exemplos de treinamento: ~2x uso de tokens
- Segmentação/categorização: uso de tokens ~2x
Sou cobrado se minha solicitação falhar?
O Reconhecimento de Conteúdo não cobra por extração ou contextualização de conteúdo quando uma solicitação falha com um erro (como um erro 400). No entanto, se uma chamada para um modelo de conclusão da Fábrica tiver sido bem-sucedida como parte dessa solicitação antes da falha ocorrer, você será cobrado pelo uso do modelo da Fábrica de acordo com as políticas de cobrança da Fábrica.
Dicas de otimização de custos
- Comece com mini modelos – GPT-4o-mini oferece economias substanciais para a maioria das tarefas de extração
- Usar implantações globais quando a residência e a conformidade de dados permitirem
- Habilitar recursos avançados seletivamente – use apenas fundamentação de origem e escores de confiança quando necessário
- Testar arquivos representativos antes de dimensionar para entender o consumo real de token
- Monitorar o uso regularmente por meio do portal do Azure para identificar oportunidades de otimização
Mais exemplos de preços
Aqui estão exemplos detalhados mostrando como os preços funcionam em diferentes cenários:
Exemplo 1: Processamento de documentos para fluxos de trabalho RAG
Cenário: você precisa extrair conteúdo de documentos para uma solução de Geração Aumentada por Recuperação (RAG). Você usa prebuilt-documentSearch para extrair descrições de texto, de layout e de figuras.
Entrada:
- 1.000 páginas
- Modelo: implantação global GPT-4.1
- Região: Leste dos EUA
Detalhamento de preços:
Extração de conteúdo: 1.000 páginas
- Custo: (1.000 / 1.000) × $5.00 = $5.00
Análise de figura:
Supondo duas figuras por página. Custa cerca de 1.000 tokens de entrada e 200 de saída por figura.
- Tokens de entrada: 2.000 figuras × 1000 tokens/imagem = 2.000.000 tokens
- Custo: (2.000.000 / 1.000.000) × $2.00 = $4.00
- Tokens de saída: 2.000 páginas × 200 tokens/página = 400.000 tokens
- Custo: (400.000 / 1.000.000) × $8.00 = $3.2
Contextualização: 1.000 páginas × 1.000 tokens/página = 1.000.000 tokens
- Custo: (1.000.000 / 1.000.000) × $1.00 = $1.00
Custo estimado total: US$ 5,00 + US$ 4 + US$ 3,2 + US$ 1,00 = US$ 13,20
Observação
Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais
Exemplo 2: Processamento de faturas com extração de campos
Cenário: você está automatizando o processamento de fatura usando prebuilt-invoice para extrair dados estruturados (número da fatura, data, fornecedor, total, itens de linha).
Entrada:
- 1.000 páginas
- Modelo: Implementação global GPT-4.1-mini (otimização de custo)
- Recursos: modo extrativo + estimativa de origem + pontuações de confiança
- Região: Leste dos EUA
Detalhamento de preços:
Extração de conteúdo: 1.000 páginas
- Custo: (1.000 / 1.000) × $5.00 = $5.00
Extração de campo: com estimativa de origem + confiança habilitada, o uso do token será ~2x a mais por página:
- Tokens de entrada base: 1.000 páginas × 5.200 tokens/página = 5.200.000 tokens
- Custo: (5.200.000 / 1.000.000) × $0.40 = $2.08
- Tokens de saída base: 1.000 páginas × 180 tokens/página = 180.000 tokens
- Custo: (180.000 / 1.000.000) × $1.60 = $0.29
Contextualização: 1.000 páginas × 1.000 tokens/página = 1.000.000 tokens
- Custo: (1.000.000 / 1.000.000) × $1.00 = $1.00
Custo estimado total: US$ 5,00 + US$ 2,08 + US$ 0,29 + US$ 1,00 = US$ 8,37
Observação
Usar uma implantação global padrão do GPT-4.1 em vez da versão mini aumentaria o custo de extração de campos em aproximadamente 5 vezes, elevando o total para cerca de USD 33.
Observação
Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais
Exemplo 3: Analisando o conteúdo do vídeo com extração de campo no nível do segmento
Cenário: você está extraindo uma representação estruturada de conteúdo de vídeo para um aplicativo RAG. Para extrair dados estruturados por segmento de vídeo, você pode usar o prebuilt-videoSearch. Segmentos são clipes curtos de 15 a 30 segundos em média, resultando em vários segmentos de saída com um único campo de resumo por segmento.
Entrada:
- 60 minutos (1 hora) de vídeo
- Modelo: implantação global GPT-4.1
- Região: Leste dos EUA
Suposições:
- Tokens de entrada: 7.500 tokens por minuto (com base em quadros de exemplo, transcrição, prompts de esquema e metaprompts)
- Tokens de saída: 900 tokens por minuto (assumindo de 10 a 20 campos estruturados curtos por segmento com segmentação automática)
- Contextualização: 1.000.000 tokens por hora de vídeo
Detalhamento de preços:
Extração de conteúdo: 60 minutos
- Custo: 60 minutos × $1/hora = $1,00
Extração de campo:
- Tokens de entrada: 60 minutos × 7.500 tokens/minuto = 450.000 tokens
- Custo: (450.000 / 1.000.000) × $2.00 = $0.90
- Tokens de saída: 60 minutos × 900 tokens/minuto = 54.000 tokens
- Custo: (54.000 / 1.000.000) × $8.00 = $0.43
Contextualização: 1.000.000 tokens por hora
- Custo: (1.000.000 / 1.000.000) × $1.00 = $1.00
Custo estimado total: US$ 1,00 + US$ 0,90 + US$ 0,43 + US$ 1,00 = US$ 3,33
Observação
O custo real varia de acordo com as especificidades de sua entrada e saída. Esse modelo de cobrança transparente baseado em uso garante que você pague apenas pelo que usa.
Observação
Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais
Exemplo 4: Processamento de gravações de call center de áudio
Cenário: você está analisando gravações de call center usando prebuilt-callCenter para gerar transcrições, diarização do locutor, análise de sentimento e resumos.
Entrada:
- 60 minutos de áudio
- Modelo: implantação global GPT-4.1-mini
- Região: Leste dos EUA
Detalhamento de preços:
Extração de conteúdo: 60 minutos
- Custo: 60 minutos × $0,36/minuto = $0,36
Extração de campo:
- Tokens de entrada: 60 minutos × 604 tokens/minuto = 36.240 tokens
- Custo: (36.240 / 1.000.000) × $0,40 = $0,01
- Tokens de saída: 60 minutos × 19 tokens/minuto = 1.140 tokens
- Custo: (1.140 / 1.000.000) × $1.60 = $0.00
Contextualização: 60 minutos × 1.667 tokens/minuto = 100.020 tokens
- Custo: (100.020 / 1.000.000) × $1.00 = $0.10
Custo estimado total: US$ 0,36 + US$ 0,01 + US$ 0,00 + US$ 0,10 = US$ 0,47
Observação
Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais
Exemplo 5: Processamento de imagens com legendas
Cenário: você está gerando legendas descritivas para imagens de produto usando prebuilt-imageSearch.
Entrada:
- 1.000 imagens
- Modelo: implantação global GPT-4.1
- Região: Leste dos EUA
Detalhamento de preços:
Extração de conteúdo: sem cobrança por imagens
- Custo: $0,00
Extração de campo:
- Tokens de entrada: 1.000 imagens × 1.043 tokens/imagem = 1.043.000 tokens
- Custo: (1.043.000 / 1.000.000) × $2.00 = $2.09
- Tokens de saída: 1.000 imagens × 170 tokens/imagem = 170.000 tokens
- Custo: (170.000 / 1.000.000) × $8.00 = $1.36
Contextualização: 1.000 imagens × 1.000 tokens/imagem = 1.000.000 tokens
- Custo: (1.000.000 / 1.000.000) × $1.00 = $1.00
Custo estimado total: US$ 0,00 + US$ 2,09 + US$ 1,36 + US$ 1,00 = US$ 4,45
Observação
Esses preços são apenas para fins ilustrativos e não se destinam a representar o custo real. Verificar preços do Azure Content Understanding e preços do Azure OpenAI para obter as taxas atuais