Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Um analisador no Azure Content Understanding in Foundry Tools é uma unidade de processamento configurável que define como seu conteúdo deve ser analisado e quais informações devem ser extraídas. Pense em um analisador como uma receita que informa ao serviço:
- Que tipo de conteúdo processar (documentos, imagens, áudio ou vídeo)
- Quais elementos extrair (texto, layout, tabelas, campos, transcrições)
- Como estruturar a saída (markdown, campos JSON, segmentos)
- Quais modelos de IA usar para processamento
Analisadores são os principais blocos de construção do Content Understanding. Eles combinam a extração de conteúdo, a análise alimentada por IA e a saída de dados estruturados em uma única configuração reutilizável. Você pode usar analisadores predefinidos para cenários comuns ou criar analisadores personalizados adaptados às suas necessidades específicas.
Tipos de analisador
O Content Understanding fornece vários tipos de analisadores:
-
Analisadores base: analisadores fundamentais que fornecem recursos principais de processamento para cada tipo de conteúdo (
prebuilt-document, ,prebuilt-audio,prebuilt-video).prebuilt-imageEsses analisadores normalmente são usados como blocos de construção para analisadores personalizados. -
Analisadores RAG: Otimizados para cenários de geração aumentada por recuperação, extraindo conteúdo com compreensão semântica para aplicativos de pesquisa e IA (por exemplo,
prebuilt-documentSearch,prebuilt-videoSearch). -
Analisadores específicos do domínio: pré-configurados para tipos e setores de documentos específicos, como faturas, recibos, documentos de ID e contratos (por exemplo
prebuilt-invoice, ,prebuilt-receipt,prebuilt-idDocument). - Analisadores personalizados: analisadores que você cria estendendo analisadores de base com esquemas e configurações de campo personalizados para atender aos seus requisitos específicos.
Para obter mais informações e uma lista completa de analisadores específicos do domínio disponíveis, consulte analisadores predefinidos.
Estrutura de configuração do analisador
Uma configuração do analisador é definida usando um objeto JSON que contém várias propriedades de nível superior. Você pode configurar os seguintes componentes:
-
Propriedades do analisador – Identidade e metadados principais
- analyzerId – Identificador exclusivo
- nome – Nome de exibição
- descrição – Descrição da finalidade
- baseAnalyzerId – Referência do analisador pai
-
Configuração do modelo – configurações do modelo de IA
- modelos – modelos padrão
-
Configuração de processamento – opções de processamento de conteúdo
- configuração – Configurações de comportamento
-
Esquema de campo – Extração de dados estruturados
- fieldSchema – Definições de campo
Aqui está um exemplo condensado mostrando a estrutura geral de uma configuração do analisador:
{
"analyzerId": "my-custom-invoice-analyzer",
"description": "Extracts vendor information, line items, and totals from commercial invoices",
"baseAnalyzerId": "prebuilt-document",
"config": {
...
"enableOcr": true
...
},
"fieldSchema": {...}
}
},
"models": {
"completion": "gpt-4.1",
"embedding": "text-embedding-3-large"
}
}
Propriedades do analisador
Essas propriedades identificam e descrevem exclusivamente o analisador:
analyzerId
- Descrição: Identificador exclusivo para o analisador. Esse identificador é como você faz referência ao analisador em chamadas à API.
-
Exemplo:
"prebuilt-invoice","my-custom-analyzer" -
Diretrizes:
- Usar nomes descritivos que indicam a finalidade do analisador
- Para analisadores personalizados, escolha nomes que não entram em conflito com nomes predefinidos do analisador
- Usar minúsculas com hifens para consistência
name
- Descrição: Nome de exibição legível por humanos mostrado nas interfaces do usuário e na documentação
-
Exemplo:
"Invoice document understanding","Custom receipt processor"
description
- Descrição: Breve explicação do que o analisador faz e qual conteúdo ele processa. Essa descrição é usada como contexto pelo modelo de IA durante a extração de campos, de modo que descrições claras melhoram a precisão da extração.
-
exemplo:
"Analyzes invoice documents to extract line items, totals, vendor information, and payment terms" -
Diretrizes:
- Seja específico sobre o que o analisador extrai
- Mencionar os tipos de conteúdo compatíveis
- Mantenha-o conciso, mas informativo
- Escreva descrições claras, pois orientam a compreensão do modelo de IA.
baseAnalyzerId
- Descrição: Faz referência a um analisador pai do qual esse analisador herda a configuração
-
Analisadores de base com suporte:
-
"prebuilt-document"– para analisadores personalizados baseados em documento -
"prebuilt-audio"– para analisadores personalizados baseados em áudio -
"prebuilt-video"– para analisadores personalizados baseados em vídeo -
"prebuilt-image"– para analisadores personalizados baseados em imagem
-
-
exemplo:
"baseAnalyzerId": "prebuilt-document"
Observação
Quando você especifica um analisador de base, o analisador personalizado herda todas as configurações padrão e pode substituir configurações específicas.
Configuração do modelo
models
-
Descrição: Especifica quais nomes de modelo de Foundry usar ao processar com esse analisador. Esses são os nomes de modelo (não os nomes de implantação) que o serviço usa. Eles devem corresponder a um dos
supportedModelsdo analisador base. A lista completa de modelos compatíveis com o Content Understanding é listada em modelos com suporte. -
Propriedades:
-
completion- Nome do modelo para tarefas de conclusão (extração de campo, segmentação, análise de figura etc.) -
embedding- Nome do modelo para tarefas de incorporação (usando uma base de conhecimento)
-
- Importante: Estes são nomes de modelo do catálogo do Foundry, não nomes de implantação. Em runtime, o serviço mapeia esses nomes de modelo para as implantações de modelo reais que você configura no nível do recurso.
-
Example:
{ "completion": "gpt-4o", "embedding": "text-embedding-3-large" }
Consulte Conectar seu recurso de Compreensão de Conteúdo com modelos do Foundry para obter mais detalhes sobre como configurar modelos conectados.
Configuração de processamento
O config objeto contém todas as opções de processamento que controlam como o conteúdo é analisado. Essas opções são divididas em categorias com base na funcionalidade:
Propriedades do objeto Config
Opções gerais
returnDetails
- Padrão: false (varia de acordo com o analisador)
- Descrição: Controla se as informações detalhadas devem ser incluídas na resposta (pontuações de confiança, caixas delimitadoras, intervalos de texto, metadados)
-
Quando usar:
- Definir como
trueao depurar problemas de extração - Quando você precisa de informações de localização para dados extraídos
- Quando as pontuações de confiança são necessárias para validação
- Para garantia de qualidade e teste
- Definir como
- Impacto na resposta: Aumenta significativamente o tamanho da resposta com mais metadados
Opções de extração de conteúdo do documento
enableOcr
- Padrão: verdadeiro
- Descrição: Permite que o Reconhecimento Óptico de Caracteres extraia texto de imagens e documentos verificados
-
Quando usar:
- Habilitar documentos digitalizados, fotos e PDFs baseados em imagem
- Desabilitar PDFs digitais nativos para melhorar o desempenho
- Apoiado por: Analisadores de documentos
enableLayout
- Padrão: verdadeiro
- Descrição: Extrai informações de layout, incluindo parágrafos, linhas, palavras, ordem de leitura e elementos estruturais
-
Quando usar:
- Necessário para entender a estrutura e a hierarquia do documento
- Necessário para extração precisa de parágrafo e seção
- Desabilitar se apenas a extração de texto bruto for necessária
- Apoiado por: Analisadores baseados em documentos
enableFormula
- Padrão: verdadeiro
- Descrição: Detecta e extrai fórmulas matemáticas e equações no formato LaTeX
-
Quando usar:
- Habilitar para artigos científicos, documentos de pesquisa, documentação técnica
- Desabilitar documentos comerciais gerais para melhorar o desempenho
- Apoiado por: Analisadores baseados em documentos
enableBarcode
- Padrão: verdadeiro
- Descrição: Detecta e extrai códigos de barras e QR, retornando os valores decodificados
-
Quando usar:
- Habilitar documentos de inventário, etiquetas de envio, documentação do produto
- Desabilitar quando os códigos de barras não estiverem presentes para melhorar o desempenho
- Apoiado por: Analisadores baseados em documentos
- Tipos de código de barras com suporte: QR Code, PDF417, UPC-A, UPC-E, Code 39, Code 128, EAN-8, EAN-13, DataBar, Code 93, Codabar, ITF, Micro QR Code, Aztec, Data Matrix, MaxiCode
Opções de tabela e gráfico
tableFormat
-
Padrão:
"html" -
Valores com suporte:
"html","markdown" - Descrição: Especifica o formato de saída para tabelas extraídas
-
Quando usar:
- Usar
"html"para renderização da Web ou quando estruturas de tabela complexas precisarem de preservação - Usar
"markdown"para tabelas simples na documentação ou processamento baseado em texto
- Usar
- Apoiado por: Analisadores baseados em documentos
chartFormat
-
Padrão:
"chartjs" -
Valores com suporte:
"chartjs" - Descrição: Especifica o formato para dados de gráfico e grafo extraídos (compatíveis com Chart.js biblioteca)
-
Quando usar:
- Ao extrair dados de gráficos de barras; gráficos de linha; gráficos de pizza
- Converter gráficos visuais em dados estruturados para renderização novamente
- Apoiado por: Analisadores baseados em documentos
Opções de análise de figura e imagem
enableFigureDescription
- Padrão: falso
- Descrição: Gera descrições de texto de linguagem natural para figuras, diagramas, imagens e ilustrações
-
Quando usar:
- Para requisitos de acessibilidade (geração de texto alt)
- Noções básicas sobre diagramas e fluxogramas
- Extraindo insights de infográficos
- Apoiado por: Analisadores baseados em documentos
enableFigureAnalysis
- Padrão: falso
- Descrição: Executa uma análise mais profunda de figuras, incluindo extração de dados de gráfico e identificação de componente de diagrama
-
Quando usar:
- Extração de dados estruturados de gráficos inseridos em documentos
- Noções básicas sobre diagramas complexos
- Classificação detalhada de figuras
- Apoiado por: Analisadores baseados em documentos
Opções de anotação
annotationFormat
-
Padrão:
"markdown" -
Valores com suporte:
"markdown" - Descrição: Especifica o formato para anotações retornadas
- Apoiado por: Analisadores baseados em documentos
Opções de extração de campo
estimateFieldSourceAndConfidence
- Padrão: false (varia de acordo com o analisador)
- Descrição: Retorna o local de origem (número da página, caixa delimitadora) e a pontuação de confiança para cada valor de campo extraído.
-
Quando usar:
- Fluxos de trabalho de validação e garantia de qualidade
- Noções básicas sobre a precisão da extração
- Depuração de problemas de extração
- Realçando o texto de origem em interfaces do usuário
- Suportado por: Analisadores de documentos (fatura, recibo, documentos de ID, formulários fiscais)
Opções de áudio e vídeo
locales
-
Padrão:
[](matriz vazia) - Descrição: Lista de códigos de localidade/idioma para processamento específico do idioma (principalmente para transcrição)
-
Valores com suporte: Códigos de linguagem BCP-47 (por exemplo,
["en-US", "es-ES", "fr-FR", "de-DE"]) -
Quando usar:
- Transcrição de áudio de vários idiomas
- Especificando o idioma esperado para melhor precisão
- Processamento de conteúdo em variantes regionais específicas
-
Com suporte por:
prebuilt-audio, ,prebuilt-videoprebuilt-callCenter
Observação
Para obter uma lista completa de idiomas e localidades com suporte, consulte o suporte a idiomas e regiões.
disableFaceBlurring
- Padrão: falso
- Descrição: Controla se os rostos em imagens e vídeos devem ser desfocados para proteção de privacidade
-
Quando usar:
- Definido como
truequando a visibilidade facial é necessária para análise. - Definido como
falsequando a desidentificação de indivíduos no conteúdo compartilhado é desejada
- Definido como
-
Com suporte por:
prebuilt-image,prebuilt-video
Importante
O recurso Recursos de Detecção Facial no Reconhecimento de Conteúdo é um serviço de Acesso Limitado e o registro é necessário para acesso. O recurso de agrupamento facial e identificação no Reconhecimento de Conteúdo é limitado com base nos critérios de qualificação e uso. O serviço de Detecção Facial só está disponível para clientes e parceiros gerenciados da Microsoft. Use o Formulário de admissão de reconhecimento facial para solicitar acesso. Para obter mais informações, consulte os investimentos de IA responsável e as proteções para reconhecimento facial.
Opções de classificação
contentCategories
- Padrão: Não definido
-
Descrição: Define categorias ou tipos de conteúdo para classificação automática e roteamento para manipuladores especializados. Quando usado com
enableSegment set to falseno momento é compatível apenas para documentos. Ele classifica todo o arquivo. Quando usado comenableSegment=true, o arquivo é dividido em partes com base nessas categorias, com cada segmento classificado e, opcionalmente, processado por um analisador específico de categoria. Sempre seleciona uma única opção na lista de categorias disponíveis. -
Estrutura: Cada categoria contém:
-
description- (Obrigatório) Descrição detalhada do tipo categoria/documento. Essa descrição atua como um prompt que orienta o modelo de IA na determinação de limites e classificação de segmento. Inclua características de distinção para ajudar a identificar onde uma categoria termina e outra começa. -
analyzerId- (Opcional) Referência a outro analisador a ser usado para essa categoria. O analisador referenciado está vinculado, não copiado, garantindo um comportamento consistente. Se omitida, somente a categorização será realizada sem mais processamento (cenário apenas de divisão).
-
-
Uso do modelo: Os modelos especificados na propriedade do
modelsanalisador pai são usados apenas para segmentação e classificação. Cada subanalízer usa sua própria configuração de modelo para extração. -
Comportamento com
enableSegment:-
enableSegment: true: o conteúdo é dividido em segmentos com base nas descrições da categoria. Cada segmento é classificado em uma das categorias definidas. Retorna metadados de segmento no objeto de conteúdo original, além de mais objetos de conteúdo para segmentos comanalyzerIdespecificado. -
enableSegment: false: todo o conteúdo é classificado como um todo em uma categoria e roteado adequadamente. Útil para classificação hierárquica sem divisão.
-
- Correspondência de categoria: Se uma categoria "outra" ou "padrão" não for definida, o conteúdo será forçado a ser classificado em uma das categorias listadas. Inclua uma categoria "outra" para lidar normalmente com conteúdo incompatível.
- Suportado por: Analisadores de documentos e vídeos. Para vídeo, você só pode definir um contentCategory.
enableSegment
- Padrão: falso
-
Descrição: Habilita a segmentação de conteúdo, dividindo o arquivo em partes com base nas categorias especificadas em
contentCategories. Cada segmento é classificado em uma das categorias definidas para processamento seletivo. -
Comportamento de segmentação: O serviço divide o conteúdo em unidades lógicas analisando o conteúdo em relação às descrições de categoria. Os limites do segmento são determinados usando:
- Documentos: Descrições de categoria combinadas com estrutura de conteúdo (páginas, seções, alterações de formatação)
- Vídeos: Descrições de categoria combinadas com indicações visuais (alterações de captura, transições de cena, limites temporais). Apenas uma categoria de conteúdo é suportada.
-
Quando usar:
- Processamento de lotes de conteúdo misto em que diferentes partes precisam de tratamento diferente (por exemplo, um PDF que contém faturas e recibos)
- Dividir documentos longos em partes categorizadas para análise seletiva
- Analisando vídeos por tipo de conteúdo (por exemplo, anúncios separados do conteúdo principal)
-
Estrutura de saída:
- Retorna uma
segmentsmatriz no objeto de conteúdo que contém metadados para cada segmento (ID, limites, categoria) - Cada segmento inclui sua categoria classificada por
contentCategories - Mais objetos de conteúdo são retornados para segmentos com categoria
analyzerIdespecificada
- Retorna uma
-
Segmentação hierárquica: Se o analisador de uma categoria também tiver
enableSegment: true, os segmentos poderão ser divididos recursivamente, permitindo a divisão de conteúdo de vários níveis - Impacto no desempenho: Aumenta o tempo de processamento para arquivos grandes, especialmente com muitos segmentos
- Suportado por: Analisadores de documentos e vídeos
segmentPerPage
- Padrão: falso
- Descrição: Quando a segmentação estiver habilitada, force um segmento por página em vez de usar limites de conteúdo lógico. Substitui a necessidade de modos de divisão separados 'por página'.
-
Quando usar:
- Fluxos de trabalho de processamento página a página
- Cada página deve ser tratada como uma unidade independente
- Processamento paralelo de páginas individuais
- Extração de campo no nível da página em documentos de várias páginas
- Lotes de documentos mistos em que cada página é um tipo de documento diferente
- Apoiado por: Analisadores baseados em documentos
omitContent
- Padrão: falso
-
Descrição: Quando
true, exclui o objeto de conteúdo original da resposta, retornando apenas dados de campo estruturados ou objetos de conteúdo de subanalyzers (ao usarcontentCategories) -
Quando usar:
- Quando você só precisa de valores de campo extraídos
- Em analisadores compostos com
contentCategoriespara retornar apenas os resultados categorizados - Para cadeias de classificação hierárquica, retorne apenas os resultados do analisador de folha
-
Exemplo – Análise seletiva:
{ "config": { "enableSegment": true, "contentCategories": { "invoice": { "analyzerId": "prebuilt-invoice" }, "other": { } // Categorize but don't process }, "omitContent": true // Only return invoice analysis results } } - Apoiado por: Analisadores de documentos
Configuração de campo
A fieldSchema propriedade define quais dados estruturados o analisador extrai do conteúdo. Ele especifica os campos, seus tipos e como eles devem ser extraídos.
Intenção de design: extração estruturada
Esquemas de campo transformam conteúdo não estruturado em dados estruturados e que podem ser consultados. O esquema funciona como ambos os elementos:
- Um contrato que define quais dados são extraídos
- Um guia para o modelo de IA sobre o que procurar e como interpretá-lo
Estrutura de esquema de campo
{
"fieldSchema": {
"name": "InvoiceAnalysis",
"fields": {
"VendorName": {
"type": "string",
"description": "Name of the vendor or supplier",
"method": "extract"
},
"InvoiceTotal": {
"type": "number",
"description": "Total amount due on the invoice",
"method": "extract"
},
"LineItems": {
"type": "array",
"items": {
"type": "object",
"properties": {
"Description": { "type": "string" },
"Quantity": { "type": "number" },
"UnitPrice": { "type": "number" },
"Amount": { "type": "number" }
}
},
"description": "List of items on the invoice, typically in a table format",
"method": "generative"
}
}
}
}
Propriedades do esquema de campo
name
- Descrição: Nome do esquema, normalmente descrevendo o tipo de conteúdo ou caso de uso
-
Exemplo:
"InvoiceAnalysis", ,"ReceiptExtraction""ContractFields"
fields
-
Descrição: Objeto que define cada campo a ser extraído, com nomes de campo como chaves. O objeto
{}vazio indica que não são extraídos campos estruturados (por exemplo, analisadores apenas de layout). -
Suporte hierárquico: Dá suporte a campos aninhados por meio
objectearraytipos para representar estruturas de dados complexas - Prática recomendada: Evite aninhamento profundo (mais de 2 a 3 níveis), pois pode reduzir a precisão de desempenho e extração
Propriedades de definição de campo
Cada campo no fields objeto tem as seguintes propriedades:
type
-
Valores com suporte:
"string", ,"number""boolean", ,"date", ,"object""array" - Descrição: Tipo de dados do valor do campo. Escolha o tipo que melhor corresponde à semântica de dados para extração ideal.
description
- Descrição: Explicação clara do que o campo contém e onde encontrá-lo. Essa descrição é processada pelo modelo de IA como um mini prompt para orientar a extração de campo, portanto, a especificidade e a clareza melhoram diretamente a precisão da extração.
Para obter informações sobre como escrever descrições de campo eficazes, consulte As práticas recomendadas para extração de campos.
method
-
Valores com suporte:
"generate", ,"extract""classify" - Descrição: Método de extração a ser usado para este campo. Quando não especificado, o sistema determina automaticamente o melhor método com base no tipo de campo e na descrição.
-
Tipos de método:
-
"generate"- Os valores são gerados livremente com base no conteúdo usando modelos de IA (melhor para campos complexos ou variáveis que exigem interpretação) -
"extract"- Os valores são extraídos conforme aparecem no conteúdo (melhor para extração de texto literal de locais específicos). A extração requerenableSourceGroundingAndConfidenceser definida como true para este campo. -
"classify"- Os valores são classificados em relação a um conjunto predefinido de categorias (melhor ao usarenumcom um conjunto fixo de valores possíveis)
-
estimateSourceAndConfidence
- Padrão: falso
-
Descrição: Retorna o local de origem (número da página, caixa delimitadora) e a pontuação de confiança para esse valor de campo. Deve ser verdadeiro para campos com
method= extração. Essa propriedade substituirá a propriedade de nívelestimateFieldSourceAndConfidencedo analisador. -
Quando usar:
- Fluxos de trabalho de validação e garantia de qualidade
- Noções básicas sobre a precisão da extração
- Depuração de problemas de extração
- Realçando o texto de origem em interfaces do usuário
- Suportado por: Analisadores de documentos (fatura, recibo, documentos de ID, formulários fiscais)
items (para tipos de matriz)
- Descrição: Define a estrutura de itens na matriz
-
Propriedades:
-
type- Tipo de itens de matriz ("string","number","object") -
properties- Para itens de objeto, define a estrutura de campo aninhada
-
properties (para tipos de objeto)
- Descrição: Define a estrutura de campos aninhados dentro do objeto
-
Example:
{ "Address": { "type": "object", "properties": { "Street": { "type": "string" }, "City": { "type": "string" }, "State": { "type": "string" }, "ZipCode": { "type": "string" } }, "description": "Complete mailing address" } }
Exemplo completo do analisador
Aqui está um exemplo abrangente de uma configuração personalizada do analisador de faturas que demonstra os principais conceitos discutidos nesta referência:
{
"analyzerId": "my-custom-invoice-analyzer",
"name": "Custom Invoice Analyzer",
"description": "Extracts vendor information, line items, and totals from commercial invoices",
"baseAnalyzerId": "prebuilt-document",
"config": {
"returnDetails": true,
"enableOcr": true,
"enableLayout": true,
"tableFormat": "html",
"estimateFieldSourceAndConfidence": true,
"omitContent": false
},
"fieldSchema": {
"name": "InvoiceFields",
"fields": {
"VendorName": {
"type": "string",
"description": "Name of the vendor or supplier, typically found in the header section",
"method": "extract"
},
"VendorAddress": {
"type": "object",
"properties": {
"Street": { "type": "string" },
"City": { "type": "string" },
"State": { "type": "string" },
"ZipCode": { "type": "string" }
},
"description": "Complete vendor mailing address"
},
"InvoiceNumber": {
"type": "string",
"description": "Unique invoice number, often labeled as 'Invoice #' or 'Invoice No.'",
"method": "extract"
},
"InvoiceDate": {
"type": "date",
"description": "Date the invoice was issued, in format MM/DD/YYYY",
"method": "extract"
},
"DueDate": {
"type": "date",
"description": "Payment due date",
"method": "extract"
},
"LineItems": {
"type": "array",
"items": {
"type": "object",
"properties": {
"Description": {
"type": "string",
"description": "Item or service description"
},
"Quantity": {
"type": "number",
"description": "Quantity ordered"
},
"UnitPrice": {
"type": "number",
"description": "Price per unit"
},
"Amount": {
"type": "number",
"description": "Line total (Quantity × UnitPrice)"
}
}
},
"description": "List of items or services on the invoice, typically in a table format",
"method": "generative"
},
"Subtotal": {
"type": "number",
"description": "Sum of all line items before tax",
"method": "extract"
},
"Tax": {
"type": "number",
"description": "Tax amount",
},
"Total": {
"type": "number",
"description": "Total amount due (Subtotal + Tax)",
},
"PaymentTerms": {
"type": "string",
"description": "Payment terms and conditions (e.g., 'Net 30', 'Due upon receipt')",
"method": "generative"
}
}
},
"supportedModels": {
"completion": ["gpt-4o", "gpt-4o-mini", "gpt-4.1"],
"embedding": ["text-embedding-3-large", "text-embedding-3-small"]
},
"models": {
"completion": "gpt-4.1",
"embedding": "text-embedding-3-large"
}
}
Criando um analisador personalizado
Para criar um analisador personalizado com base na estrutura de configuração descrita neste documento, use a API REST de Compreensão de Conteúdo para enviar a definição do analisador.
Ponto de extremidade de API
Use o seguinte comando curl para criar um analisador personalizado enviando a configuração do analisador de um arquivo JSON:
curl -X PUT "https://{endpoint}/contentunderstanding/analyzers/{analyzerId}?api-version=2025-11-01-preview" \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: {key}" \
-d @analyzer-definition.json
Substitua os seguintes espaços reservados:
-
{endpoint}- Seu ponto de extremidade do recurso de Compreensão de conteúdo -
{analyzerId}– Identificador exclusivo para o analisador -
{key}- Sua chave de assinatura de Entendimento de Conteúdo -
analyzer-definition.json- Caminho para o arquivo de configuração do analisador
Corpo da solicitação
O arquivo de configuração do analisador deve ser um objeto JSON que contém as propriedades descritas nesta referência. Para obter um exemplo completo, consulte o tutorial Criar Analisador Personalizado.
Resposta
A API retorna uma 201 Created resposta com um Operation-Location cabeçalho que você pode usar para acompanhar o status da operação de criação do analisador.
Próximas etapas
Para obter um passo a passo completo com exemplos para diferentes tipos de conteúdo (documentos, imagens, áudio, vídeo), consulte Criar um analisador personalizado.
Configuração por tipo de conteúdo
Tipos de conteúdo diferentes dão suporte a diferentes opções de configuração. Aqui está uma referência rápida:
Analisadores de documentos
Analisador de base:prebuilt-document
Opções de configuração com suporte:
- ✅
returnDetails - ✅
omitContent - ✅
enableOcr - ✅
enableLayout - ✅
enableFormula - ✅
enableBarcode - ✅
tableFormat - ✅
chartFormat - ✅
enableFigureDescription - ✅
enableFigureAnalysis - ✅
enableAnnotations - ✅
annotationFormat - ✅
enableSegment - ✅
segmentPerPage -
✅
estimateFieldSourceAndConfidence(analisadores estruturados) -
✅
contentCategories(analisadores de várias variantes)
Analisadores de áudio
Analisador de base:prebuilt-audio
Opções de configuração com suporte:
- ✅
returnDetails - ✅
locales
Analisadores de vídeo
Analisador de Base:prebuilt-video
Opções de configuração com suporte:
- ✅
returnDetails - ✅
locales - ✅
contentCategories - ✅
enableSegment - ✅
omitContent - ✅
disableFaceBlurring
Analisadores de imagem
Analisador base:prebuilt-image
Opções de configuração com suporte:
- ✅
returnDetails - ✅
disableFaceBlurring
Conteúdo relacionado
- Saiba mais sobre analisadores predefinidos disponíveis no Content Understanding
- Explore os modelos do analisador para começar rapidamente
- Crie seu próprio analisador seguindo o tutorial do analisador personalizado
- Entender as práticas recomendadas para resultados de extração ideais
- Examinar elementos de documento e elementos de vídeo para obter detalhes sobre o conteúdo extraído
- Comece criando e testando analisadores no Foundry