O que é um analisador de compreensão de conteúdo?

Um analisador no Azure Content Understanding in Foundry Tools é uma unidade de processamento configurável que define como seu conteúdo deve ser analisado e quais informações devem ser extraídas. Pense em um analisador como uma receita que informa ao serviço:

Que tipo de conteúdo processar (documentos, imagens, áudio ou vídeo)
Quais elementos extrair (texto, layout, tabelas, campos, transcrições)
Como estruturar a saída (markdown, campos JSON, segmentos)
Quais modelos de IA usar para processamento

Analisadores são os principais blocos de construção do Content Understanding. Eles combinam a extração de conteúdo, a análise alimentada por IA e a saída de dados estruturados em uma única configuração reutilizável. Você pode usar analisadores predefinidos para cenários comuns ou criar analisadores personalizados adaptados às suas necessidades específicas.

Tipos de analisador

O Content Understanding fornece vários tipos de analisadores:

Analisadores base: analisadores fundamentais que fornecem recursos principais de processamento para cada tipo de conteúdo (prebuilt-document, , prebuilt-audio, prebuilt-video). prebuilt-image Esses analisadores normalmente são usados como blocos de construção para analisadores personalizados.
Analisadores RAG: Otimizados para cenários de geração aumentada por recuperação, extraindo conteúdo com compreensão semântica para aplicativos de pesquisa e IA (por exemplo, prebuilt-documentSearch, prebuilt-videoSearch).
Analisadores específicos do domínio: pré-configurados para tipos e setores de documentos específicos, como faturas, recibos, documentos de ID e contratos (por exemplo prebuilt-invoice, , prebuilt-receipt, prebuilt-idDocument).
Analisadores personalizados: analisadores que você cria estendendo analisadores de base com esquemas e configurações de campo personalizados para atender aos seus requisitos específicos.

Para obter mais informações e uma lista completa de analisadores específicos do domínio disponíveis, consulte analisadores predefinidos.

Estrutura de configuração do analisador

Uma configuração do analisador é definida usando um objeto JSON que contém várias propriedades de nível superior. Você pode configurar os seguintes componentes:

Propriedades do analisador – Identidade e metadados principais
- analyzerId – Identificador exclusivo
- nome – Nome de exibição
- descrição – Descrição da finalidade
- baseAnalyzerId – Referência do analisador pai
Configuração do modelo – configurações do modelo de IA
- modelos – modelos padrão
Configuração de processamento – opções de processamento de conteúdo
- configuração – Configurações de comportamento
Esquema de campo – Extração de dados estruturados
- fieldSchema – Definições de campo

Aqui está um exemplo condensado mostrando a estrutura geral de uma configuração do analisador:

{
  "analyzerId": "my-custom-invoice-analyzer",
  "description": "Extracts vendor information, line items, and totals from commercial invoices",
  "baseAnalyzerId": "prebuilt-document",
  "config": {
    ...
    "enableOcr": true
    ...
  },
  "fieldSchema": {...}
    }
  },
  "models": {
    "completion": "gpt-4.1",
    "embedding": "text-embedding-3-large"
  }
}

Propriedades do analisador

Essas propriedades identificam e descrevem exclusivamente o analisador:

`analyzerId`

Descrição: Identificador exclusivo para o analisador. Esse identificador é como você faz referência ao analisador em chamadas à API.
Exemplo:"prebuilt-invoice", "my-custom-analyzer"
Diretrizes:
- Usar nomes descritivos que indicam a finalidade do analisador
- Para analisadores personalizados, escolha nomes que não entram em conflito com nomes predefinidos do analisador
- Usar minúsculas com hifens para consistência

`name`

Descrição: Nome de exibição legível por humanos mostrado nas interfaces do usuário e na documentação
Exemplo:"Invoice document understanding", "Custom receipt processor"

`description`

Descrição: Breve explicação do que o analisador faz e qual conteúdo ele processa. Essa descrição é usada como contexto pelo modelo de IA durante a extração de campos, de modo que descrições claras melhoram a precisão da extração.
exemplo:"Analyzes invoice documents to extract line items, totals, vendor information, and payment terms"
Diretrizes:
- Seja específico sobre o que o analisador extrai
- Mencionar os tipos de conteúdo compatíveis
- Mantenha-o conciso, mas informativo
- Escreva descrições claras, pois orientam a compreensão do modelo de IA.

`baseAnalyzerId`

Descrição: Faz referência a um analisador pai do qual esse analisador herda a configuração
Analisadores de base com suporte:
- "prebuilt-document" – para analisadores personalizados baseados em documento
- "prebuilt-audio" – para analisadores personalizados baseados em áudio
- "prebuilt-video" – para analisadores personalizados baseados em vídeo
- "prebuilt-image" – para analisadores personalizados baseados em imagem
exemplo:"baseAnalyzerId": "prebuilt-document"

Observação

Quando você especifica um analisador de base, o analisador personalizado herda todas as configurações padrão e pode substituir configurações específicas.

Configuração do modelo

`models`

Descrição: Especifica quais nomes de modelo de Foundry usar ao processar com esse analisador. Esses são os nomes de modelo (não os nomes de implantação) que o serviço usa. Eles devem corresponder a um dos supportedModels do analisador base. A lista completa de modelos compatíveis com o Content Understanding é listada em modelos com suporte.
Propriedades:
- completion - Nome do modelo para tarefas de conclusão (extração de campo, segmentação, análise de figura etc.)
- embedding - Nome do modelo para tarefas de incorporação (usando uma base de conhecimento)
Importante: Estes são nomes de modelo do catálogo do Foundry, não nomes de implantação. Em runtime, o serviço mapeia esses nomes de modelo para as implantações de modelo reais que você configura no nível do recurso.

Example:

{
  "completion": "gpt-4o",
  "embedding": "text-embedding-3-large"
}

Consulte Conectar seu recurso de Compreensão de Conteúdo com modelos do Foundry para obter mais detalhes sobre como configurar modelos conectados.

Configuração de processamento

O config objeto contém todas as opções de processamento que controlam como o conteúdo é analisado. Essas opções são divididas em categorias com base na funcionalidade:

Propriedades do objeto Config

Opções gerais

`returnDetails`

Padrão: false (varia de acordo com o analisador)
Descrição: Controla se as informações detalhadas devem ser incluídas na resposta (pontuações de confiança, caixas delimitadoras, intervalos de texto, metadados)
Quando usar:
- Definir como true ao depurar problemas de extração
- Quando você precisa de informações de localização para dados extraídos
- Quando as pontuações de confiança são necessárias para validação
- Para garantia de qualidade e teste
Impacto na resposta: Aumenta significativamente o tamanho da resposta com mais metadados

Opções de extração de conteúdo do documento

`enableOcr`

Padrão: verdadeiro
Descrição: Permite que o Reconhecimento Óptico de Caracteres extraia texto de imagens e documentos verificados
Quando usar:
- Habilitar documentos digitalizados, fotos e PDFs baseados em imagem
- Desabilitar PDFs digitais nativos para melhorar o desempenho
Apoiado por: Analisadores de documentos

`enableLayout`

Padrão: verdadeiro
Descrição: Extrai informações de layout, incluindo parágrafos, linhas, palavras, ordem de leitura e elementos estruturais
Quando usar:
- Necessário para entender a estrutura e a hierarquia do documento
- Necessário para extração precisa de parágrafo e seção
- Desabilitar se apenas a extração de texto bruto for necessária
Apoiado por: Analisadores baseados em documentos

`enableFormula`

Padrão: verdadeiro
Descrição: Detecta e extrai fórmulas matemáticas e equações no formato LaTeX
Quando usar:
- Habilitar para artigos científicos, documentos de pesquisa, documentação técnica
- Desabilitar documentos comerciais gerais para melhorar o desempenho
Apoiado por: Analisadores baseados em documentos

`enableBarcode`

Padrão: verdadeiro
Descrição: Detecta e extrai códigos de barras e QR, retornando os valores decodificados
Quando usar:
- Habilitar documentos de inventário, etiquetas de envio, documentação do produto
- Desabilitar quando os códigos de barras não estiverem presentes para melhorar o desempenho
Apoiado por: Analisadores baseados em documentos
Tipos de código de barras com suporte: QR Code, PDF417, UPC-A, UPC-E, Code 39, Code 128, EAN-8, EAN-13, DataBar, Code 93, Codabar, ITF, Micro QR Code, Aztec, Data Matrix, MaxiCode

Opções de tabela e gráfico

`tableFormat`

Padrão:"html"
Valores com suporte:"html", "markdown"
Descrição: Especifica o formato de saída para tabelas extraídas
Quando usar:
- Usar "html" para renderização da Web ou quando estruturas de tabela complexas precisarem de preservação
- Usar "markdown" para tabelas simples na documentação ou processamento baseado em texto
Apoiado por: Analisadores baseados em documentos

`chartFormat`

Padrão:"chartjs"
Valores com suporte:"chartjs"
Descrição: Especifica o formato para dados de gráfico e grafo extraídos (compatíveis com Chart.js biblioteca)
Quando usar:
- Ao extrair dados de gráficos de barras; gráficos de linha; gráficos de pizza
- Converter gráficos visuais em dados estruturados para renderização novamente
Apoiado por: Analisadores baseados em documentos

Opções de análise de figura e imagem

`enableFigureDescription`

Padrão: falso
Descrição: Gera descrições de texto de linguagem natural para figuras, diagramas, imagens e ilustrações
Quando usar:
- Para requisitos de acessibilidade (geração de texto alt)
- Noções básicas sobre diagramas e fluxogramas
- Extraindo insights de infográficos
Apoiado por: Analisadores baseados em documentos

`enableFigureAnalysis`

Padrão: falso
Descrição: Executa uma análise mais profunda de figuras, incluindo extração de dados de gráfico e identificação de componente de diagrama
Quando usar:
- Extração de dados estruturados de gráficos inseridos em documentos
- Noções básicas sobre diagramas complexos
- Classificação detalhada de figuras
Apoiado por: Analisadores baseados em documentos

Opções de anotação

`annotationFormat`

Padrão:"markdown"
Valores com suporte:"markdown"
Descrição: Especifica o formato para anotações retornadas
Apoiado por: Analisadores baseados em documentos

Opções de extração de campo

`estimateFieldSourceAndConfidence`

Padrão: false (varia de acordo com o analisador)
Descrição: Retorna o local de origem (número da página, caixa delimitadora) e a pontuação de confiança para cada valor de campo extraído.
Quando usar:
- Fluxos de trabalho de validação e garantia de qualidade
- Noções básicas sobre a precisão da extração
- Depuração de problemas de extração
- Realçando o texto de origem em interfaces do usuário
Suportado por: Analisadores de documentos (fatura, recibo, documentos de ID, formulários fiscais)

Opções de áudio e vídeo

`locales`

Padrão:[] (matriz vazia)
Descrição: Lista de códigos de localidade/idioma para processamento específico do idioma (principalmente para transcrição)
Valores com suporte: Códigos de linguagem BCP-47 (por exemplo, ["en-US", "es-ES", "fr-FR", "de-DE"])
Quando usar:
- Transcrição de áudio de vários idiomas
- Especificando o idioma esperado para melhor precisão
- Processamento de conteúdo em variantes regionais específicas
Com suporte por:prebuilt-audio, , prebuilt-videoprebuilt-callCenter

Observação

Para obter uma lista completa de idiomas e localidades com suporte, consulte o suporte a idiomas e regiões.

`disableFaceBlurring`

Padrão: falso
Descrição: Controla se os rostos em imagens e vídeos devem ser desfocados para proteção de privacidade
Quando usar:
- Definido como true quando a visibilidade facial é necessária para análise.
- Definido como false quando a desidentificação de indivíduos no conteúdo compartilhado é desejada
Com suporte por:prebuilt-image, prebuilt-video

Importante

O recurso Recursos de Detecção Facial no Reconhecimento de Conteúdo é um serviço de Acesso Limitado e o registro é necessário para acesso. O recurso de agrupamento facial e identificação no Reconhecimento de Conteúdo é limitado com base nos critérios de qualificação e uso. O serviço de Detecção Facial só está disponível para clientes e parceiros gerenciados da Microsoft. Use o Formulário de admissão de reconhecimento facial para solicitar acesso. Para obter mais informações, consulte os investimentos de IA responsável e as proteções para reconhecimento facial.

Opções de classificação

`contentCategories`

Padrão: Não definido
Descrição: Define categorias ou tipos de conteúdo para classificação automática e roteamento para manipuladores especializados. Quando usado com enableSegment set to false no momento é compatível apenas para documentos. Ele classifica todo o arquivo. Quando usado com enableSegment=true, o arquivo é dividido em partes com base nessas categorias, com cada segmento classificado e, opcionalmente, processado por um analisador específico de categoria. Sempre seleciona uma única opção na lista de categorias disponíveis.
Estrutura: Cada categoria contém:
- description - (Obrigatório) Descrição detalhada do tipo categoria/documento. Essa descrição atua como um prompt que orienta o modelo de IA na determinação de limites e classificação de segmento. Inclua características de distinção para ajudar a identificar onde uma categoria termina e outra começa.
- analyzerId - (Opcional) Referência a outro analisador a ser usado para essa categoria. O analisador referenciado está vinculado, não copiado, garantindo um comportamento consistente. Se omitida, somente a categorização será realizada sem mais processamento (cenário apenas de divisão).
Uso do modelo: Os modelos especificados na propriedade do models analisador pai são usados apenas para segmentação e classificação. Cada subanalízer usa sua própria configuração de modelo para extração.
Comportamento com enableSegment:
- enableSegment: true: o conteúdo é dividido em segmentos com base nas descrições da categoria. Cada segmento é classificado em uma das categorias definidas. Retorna metadados de segmento no objeto de conteúdo original, além de mais objetos de conteúdo para segmentos com analyzerId especificado.
- enableSegment: false: todo o conteúdo é classificado como um todo em uma categoria e roteado adequadamente. Útil para classificação hierárquica sem divisão.
Correspondência de categoria: Se uma categoria "outra" ou "padrão" não for definida, o conteúdo será forçado a ser classificado em uma das categorias listadas. Inclua uma categoria "outra" para lidar normalmente com conteúdo incompatível.
Suportado por: Analisadores de documentos e vídeos. Para vídeo, você só pode definir um contentCategory.

`enableSegment`

Padrão: falso
Descrição: Habilita a segmentação de conteúdo, dividindo o arquivo em partes com base nas categorias especificadas em contentCategories. Cada segmento é classificado em uma das categorias definidas para processamento seletivo.
Comportamento de segmentação: O serviço divide o conteúdo em unidades lógicas analisando o conteúdo em relação às descrições de categoria. Os limites do segmento são determinados usando:
- Documentos: Descrições de categoria combinadas com estrutura de conteúdo (páginas, seções, alterações de formatação)
- Vídeos: Descrições de categoria combinadas com indicações visuais (alterações de captura, transições de cena, limites temporais). Apenas uma categoria de conteúdo é suportada.
Quando usar:
- Processamento de lotes de conteúdo misto em que diferentes partes precisam de tratamento diferente (por exemplo, um PDF que contém faturas e recibos)
- Dividir documentos longos em partes categorizadas para análise seletiva
- Analisando vídeos por tipo de conteúdo (por exemplo, anúncios separados do conteúdo principal)
Estrutura de saída:
- Retorna uma segments matriz no objeto de conteúdo que contém metadados para cada segmento (ID, limites, categoria)
- Cada segmento inclui sua categoria classificada por contentCategories
- Mais objetos de conteúdo são retornados para segmentos com categoria analyzerId especificada
Segmentação hierárquica: Se o analisador de uma categoria também tiver enableSegment: true, os segmentos poderão ser divididos recursivamente, permitindo a divisão de conteúdo de vários níveis
Impacto no desempenho: Aumenta o tempo de processamento para arquivos grandes, especialmente com muitos segmentos
Suportado por: Analisadores de documentos e vídeos

`segmentPerPage`

Padrão: falso
Descrição: Quando a segmentação estiver habilitada, force um segmento por página em vez de usar limites de conteúdo lógico. Substitui a necessidade de modos de divisão separados 'por página'.
Quando usar:
- Fluxos de trabalho de processamento página a página
- Cada página deve ser tratada como uma unidade independente
- Processamento paralelo de páginas individuais
- Extração de campo no nível da página em documentos de várias páginas
- Lotes de documentos mistos em que cada página é um tipo de documento diferente
Apoiado por: Analisadores baseados em documentos

`omitContent`

Padrão: falso
Descrição: Quando true, exclui o objeto de conteúdo original da resposta, retornando apenas dados de campo estruturados ou objetos de conteúdo de subanalyzers (ao usar contentCategories)
Quando usar:
- Quando você só precisa de valores de campo extraídos
- Em analisadores compostos com contentCategories para retornar apenas os resultados categorizados
- Para cadeias de classificação hierárquica, retorne apenas os resultados do analisador de folha

Exemplo – Análise seletiva:

{
  "config": {
    "enableSegment": true,
    "contentCategories": {
      "invoice": { "analyzerId": "prebuilt-invoice" },
      "other": { }  // Categorize but don't process
    },
    "omitContent": true  // Only return invoice analysis results
  }
}

Apoiado por: Analisadores de documentos

Configuração de campo

A fieldSchema propriedade define quais dados estruturados o analisador extrai do conteúdo. Ele especifica os campos, seus tipos e como eles devem ser extraídos.

Intenção de design: extração estruturada

Esquemas de campo transformam conteúdo não estruturado em dados estruturados e que podem ser consultados. O esquema funciona como ambos os elementos:

Um contrato que define quais dados são extraídos
Um guia para o modelo de IA sobre o que procurar e como interpretá-lo

Estrutura de esquema de campo

{
  "fieldSchema": {
    "name": "InvoiceAnalysis",
    "fields": {
      "VendorName": {
        "type": "string",
        "description": "Name of the vendor or supplier",
        "method": "extract"
      },
      "InvoiceTotal": {
        "type": "number",
        "description": "Total amount due on the invoice",
        "method": "extract"
      },
      "LineItems": {
        "type": "array",
        "items": {
          "type": "object",
          "properties": {
            "Description": { "type": "string" },
            "Quantity": { "type": "number" },
            "UnitPrice": { "type": "number" },
            "Amount": { "type": "number" }
          }
        },
        "description": "List of items on the invoice, typically in a table format",
        "method": "generative"
      }
    }
  }
}

Propriedades do esquema de campo

`name`

Descrição: Nome do esquema, normalmente descrevendo o tipo de conteúdo ou caso de uso
Exemplo:"InvoiceAnalysis", , "ReceiptExtraction""ContractFields"

`fields`

Descrição: Objeto que define cada campo a ser extraído, com nomes de campo como chaves. O objeto {} vazio indica que não são extraídos campos estruturados (por exemplo, analisadores apenas de layout).
Suporte hierárquico: Dá suporte a campos aninhados por meio object e array tipos para representar estruturas de dados complexas
Prática recomendada: Evite aninhamento profundo (mais de 2 a 3 níveis), pois pode reduzir a precisão de desempenho e extração

Propriedades de definição de campo

Cada campo no fields objeto tem as seguintes propriedades:

`type`

Valores com suporte:"string", , "number""boolean", , "date", , "object""array"
Descrição: Tipo de dados do valor do campo. Escolha o tipo que melhor corresponde à semântica de dados para extração ideal.

`description`

Descrição: Explicação clara do que o campo contém e onde encontrá-lo. Essa descrição é processada pelo modelo de IA como um mini prompt para orientar a extração de campo, portanto, a especificidade e a clareza melhoram diretamente a precisão da extração.

Para obter informações sobre como escrever descrições de campo eficazes, consulte As práticas recomendadas para extração de campos.

`method`

Valores com suporte:"generate", , "extract""classify"
Descrição: Método de extração a ser usado para este campo. Quando não especificado, o sistema determina automaticamente o melhor método com base no tipo de campo e na descrição.
Tipos de método:
- "generate" - Os valores são gerados livremente com base no conteúdo usando modelos de IA (melhor para campos complexos ou variáveis que exigem interpretação)
- "extract" - Os valores são extraídos conforme aparecem no conteúdo (melhor para extração de texto literal de locais específicos). A extração requer enableSourceGroundingAndConfidence ser definida como true para este campo.
- "classify" - Os valores são classificados em relação a um conjunto predefinido de categorias (melhor ao usar enum com um conjunto fixo de valores possíveis)

`estimateSourceAndConfidence`

Padrão: falso
Descrição: Retorna o local de origem (número da página, caixa delimitadora) e a pontuação de confiança para esse valor de campo. Deve ser verdadeiro para campos com method = extração. Essa propriedade substituirá a propriedade de nível estimateFieldSourceAndConfidence do analisador.
Quando usar:
- Fluxos de trabalho de validação e garantia de qualidade
- Noções básicas sobre a precisão da extração
- Depuração de problemas de extração
- Realçando o texto de origem em interfaces do usuário
Suportado por: Analisadores de documentos (fatura, recibo, documentos de ID, formulários fiscais)

`items` (para tipos de matriz)

Descrição: Define a estrutura de itens na matriz
Propriedades:
- type - Tipo de itens de matriz ("string", "number", "object")
- properties - Para itens de objeto, define a estrutura de campo aninhada

`properties` (para tipos de objeto)

Descrição: Define a estrutura de campos aninhados dentro do objeto

Example:

{
  "Address": {
    "type": "object",
    "properties": {
      "Street": { "type": "string" },
      "City": { "type": "string" },
      "State": { "type": "string" },
      "ZipCode": { "type": "string" }
    },
    "description": "Complete mailing address"
  }
}

Exemplo completo do analisador

Aqui está um exemplo abrangente de uma configuração personalizada do analisador de faturas que demonstra os principais conceitos discutidos nesta referência:

{
  "analyzerId": "my-custom-invoice-analyzer",
  "name": "Custom Invoice Analyzer",
  "description": "Extracts vendor information, line items, and totals from commercial invoices",
  "baseAnalyzerId": "prebuilt-document",
  "config": {
    "returnDetails": true,
    "enableOcr": true,
    "enableLayout": true,
    "tableFormat": "html",
    "estimateFieldSourceAndConfidence": true,
    "omitContent": false
  },
  "fieldSchema": {
    "name": "InvoiceFields",
    "fields": {
      "VendorName": {
        "type": "string",
        "description": "Name of the vendor or supplier, typically found in the header section",
        "method": "extract"
      },
      "VendorAddress": {
        "type": "object",
        "properties": {
          "Street": { "type": "string" },
          "City": { "type": "string" },
          "State": { "type": "string" },
          "ZipCode": { "type": "string" }
        },
        "description": "Complete vendor mailing address"
      },
      "InvoiceNumber": {
        "type": "string",
        "description": "Unique invoice number, often labeled as 'Invoice #' or 'Invoice No.'",
        "method": "extract"
      },
      "InvoiceDate": {
        "type": "date",
        "description": "Date the invoice was issued, in format MM/DD/YYYY",
        "method": "extract"
      },
      "DueDate": {
        "type": "date",
        "description": "Payment due date",
        "method": "extract"
      },
      "LineItems": {
        "type": "array",
        "items": {
          "type": "object",
          "properties": {
            "Description": {
              "type": "string",
              "description": "Item or service description"
            },
            "Quantity": {
              "type": "number",
              "description": "Quantity ordered"
            },
            "UnitPrice": {
              "type": "number",
              "description": "Price per unit"
            },
            "Amount": {
              "type": "number",
              "description": "Line total (Quantity × UnitPrice)"
            }
          }
        },
        "description": "List of items or services on the invoice, typically in a table format",
        "method": "generative"
      },
      "Subtotal": {
        "type": "number",
        "description": "Sum of all line items before tax",
        "method": "extract"
      },
      "Tax": {
        "type": "number",
        "description": "Tax amount",
      },
      "Total": {
        "type": "number",
        "description": "Total amount due (Subtotal + Tax)",
      },
      "PaymentTerms": {
        "type": "string",
        "description": "Payment terms and conditions (e.g., 'Net 30', 'Due upon receipt')",
        "method": "generative"
      }
    }
  },
  "supportedModels": {
    "completion": ["gpt-4o", "gpt-4o-mini", "gpt-4.1"],
    "embedding": ["text-embedding-3-large", "text-embedding-3-small"]
  },
  "models": {
    "completion": "gpt-4.1",
    "embedding": "text-embedding-3-large"
  }
}

Criando um analisador personalizado

Para criar um analisador personalizado com base na estrutura de configuração descrita neste documento, use a API REST de Compreensão de Conteúdo para enviar a definição do analisador.

Ponto de extremidade de API

Use o seguinte comando curl para criar um analisador personalizado enviando a configuração do analisador de um arquivo JSON:

curl -X PUT "https://{endpoint}/contentunderstanding/analyzers/{analyzerId}?api-version=2025-11-01-preview" \
  -H "Content-Type: application/json" \
  -H "Ocp-Apim-Subscription-Key: {key}" \
  -d @analyzer-definition.json

Substitua os seguintes espaços reservados:

{endpoint} - Seu ponto de extremidade do recurso de Compreensão de conteúdo
{analyzerId} – Identificador exclusivo para o analisador
{key} - Sua chave de assinatura de Entendimento de Conteúdo
analyzer-definition.json - Caminho para o arquivo de configuração do analisador

Corpo da solicitação

O arquivo de configuração do analisador deve ser um objeto JSON que contém as propriedades descritas nesta referência. Para obter um exemplo completo, consulte o tutorial Criar Analisador Personalizado.

Resposta

A API retorna uma 201 Created resposta com um Operation-Location cabeçalho que você pode usar para acompanhar o status da operação de criação do analisador.

Próximas etapas

Para obter um passo a passo completo com exemplos para diferentes tipos de conteúdo (documentos, imagens, áudio, vídeo), consulte Criar um analisador personalizado.

Configuração por tipo de conteúdo

Tipos de conteúdo diferentes dão suporte a diferentes opções de configuração. Aqui está uma referência rápida:

Analisadores de documentos

Analisador de base:prebuilt-document

Opções de configuração com suporte:

✅ returnDetails
✅ omitContent
✅ enableOcr
✅ enableLayout
✅ enableFormula
✅ enableBarcode
✅ tableFormat
✅ chartFormat
✅ enableFigureDescription
✅ enableFigureAnalysis
✅ enableAnnotations
✅ annotationFormat
✅ enableSegment
✅ segmentPerPage
✅ estimateFieldSourceAndConfidence (analisadores estruturados)
✅ contentCategories (analisadores de várias variantes)

Analisadores de áudio

Analisador de base:prebuilt-audio

Opções de configuração com suporte:

✅ returnDetails
✅ locales

Analisadores de vídeo

Analisador de Base:prebuilt-video

Opções de configuração com suporte:

✅ returnDetails
✅ locales
✅ contentCategories
✅ enableSegment
✅ omitContent
✅ disableFaceBlurring

Analisadores de imagem

Analisador base:prebuilt-image

Opções de configuração com suporte:

✅ returnDetails
✅ disableFaceBlurring

Saiba mais sobre analisadores predefinidos disponíveis no Content Understanding
Explore os modelos do analisador para começar rapidamente
Crie seu próprio analisador seguindo o tutorial do analisador personalizado
Entender as práticas recomendadas para resultados de extração ideais
Examinar elementos de documento e elementos de vídeo para obter detalhes sobre o conteúdo extraído
Comece criando e testando analisadores no Foundry

Comentários

Esta página foi útil?

Last updated on 2025-11-18

Compartilhar via

O que é um analisador de compreensão de conteúdo?

Tipos de analisador

Estrutura de configuração do analisador

Propriedades do analisador

analyzerId

name

description

baseAnalyzerId

Configuração do modelo

models

Configuração de processamento

Propriedades do objeto Config

Opções gerais

returnDetails

Opções de extração de conteúdo do documento

enableOcr

enableLayout

enableFormula

enableBarcode

Opções de tabela e gráfico

tableFormat

chartFormat

Opções de análise de figura e imagem

enableFigureDescription

enableFigureAnalysis

Opções de anotação

annotationFormat

Opções de extração de campo

estimateFieldSourceAndConfidence

Opções de áudio e vídeo

locales

disableFaceBlurring

Opções de classificação

contentCategories

enableSegment

segmentPerPage

omitContent

Configuração de campo

Intenção de design: extração estruturada

Estrutura de esquema de campo

Propriedades do esquema de campo

name

fields

Propriedades de definição de campo

type

description

method

estimateSourceAndConfidence

items (para tipos de matriz)

properties (para tipos de objeto)

Exemplo completo do analisador

Criando um analisador personalizado

Ponto de extremidade de API

Corpo da solicitação

Resposta

Próximas etapas

Configuração por tipo de conteúdo

Analisadores de documentos

Analisadores de áudio

Analisadores de vídeo

Analisadores de imagem

Conteúdo relacionado

Comentários

Recursos adicionais

`analyzerId`

`name`

`description`

`baseAnalyzerId`

`models`

`returnDetails`

`enableOcr`

`enableLayout`

`enableFormula`

`enableBarcode`

`tableFormat`

`chartFormat`

`enableFigureDescription`

`enableFigureAnalysis`

`annotationFormat`

`estimateFieldSourceAndConfidence`

`locales`

`disableFaceBlurring`

`contentCategories`

`enableSegment`

`segmentPerPage`

`omitContent`

`name`

`fields`

`type`

`description`

`method`

`estimateSourceAndConfidence`

`items` (para tipos de matriz)

`properties` (para tipos de objeto)