Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O Content Understanding permite aos clientes implementar classificação e divisão como parte do pedido de operação do analisador. Pode realizar a classificação e extração de conteúdo como parte de uma única chamada à API.
O conceito global de analyzer agora inclui o conceito de contentCategories e enableSegment para classificar e dividir os dados de entrada que processa dentro da sua aplicação. Esta funcionalidade do analisador pode realizar a classificação de um ficheiro de entrada como um todo. Ele também pode identificar vários documentos ou várias instâncias de um único documento dentro de um arquivo de entrada.
A partir da versão GA, a classificação de documentos e o desenho da segmentação de vídeo são unificados, permitindo uma abordagem coerente ao processamento dos dados de entrada independentemente da sua modalidade. Na documentação, "Classificação por Compreensão de Conteúdo" refere-se às operações de análise necessárias para classificar e dividir dados de entrada (contentCategories e enableSegment).
Casos de uso de negócios
A classificação de Compreensão de Conteúdo permite processar documentos e vídeos complexos em vários formatos e modelos:
- Faturas: categorize faturas de vários fornecedores para processar cada categoria com um analisador de Compreensão de Conteúdo diferente, se necessário.
- Documentos fiscais: categorize vários documentos fiscais em diferentes tipos de formulários fiscais, como 1040 e 1099.
- Contratos: Categorize contratos longos e não estruturados para agilizar as operações e entender os diferentes tipos de acordos e suas implicações legais específicas.
- Vídeo desportivo: Segmente automaticamente as cenas para dividir o vídeo em blocos lógicos, como anúncios e o conteúdo desportivo real.
Capacidades de classificação/segmentação
A Content Understanding pode analisar documentos de ficheiro único ou múltiplo para identificar se um ficheiro de entrada pode ser classificado numa categoria conforme definida. Os seguintes cenários são suportados:
Cenários de documento:
- Classificar apenas: Classifica o ficheiro de entrada como um todo. Por exemplo, um único ficheiro que contenha um tipo de documento, como um formulário de pedido de empréstimo.
- Classificar e analisar: Classifica e analisa o ficheiro de entrada encaminhando a entrada para o analisador de extração desejado.
- Classificar e segmentar: Classifica e segmenta um único ficheiro de entrada que pode conter múltiplos tipos ou instâncias de documentos concatenados. Por exemplo, um pacote de pedido de empréstimo que contém um formulário de pedido de empréstimo, recibo de vencimento e extrato bancário. Outro exemplo é uma coleção de faturas digitalizadas num único ficheiro.
- Classificar, segmentar e analisar: Uma vez classificados os segmentos, encaminhe cada segmento para o analisador de extração desejado para extração posterior do campo.
- Classificador hierárquico: Análises adicionais opcionais, dependendo da categoria, podem também ser um analisador de classificadores.
Cenários em vídeo:
-
Apenas segmentos: Dividir o vídeo em segmentos com base nas características de conteúdo definidas no
descriptioncampo decontentCategories. Por exemplo, dividir uma transmissão desportiva em jogos, anúncios e segmentos de comentário. - Segmentar e analisar: Dividir o vídeo em segmentos e encaminhar cada segmento para um analisador para extração em campo.
Observação
A unidade mínima para classificação de documentos é uma única página. A classificação intra-página não é suportada.
Criar categorias de classificação
A classificação de compreensão de conteúdos não requer um conjunto de dados de treino. Pode definir até 200 nomes e descrições de categorias dentro da operação de análise. Por defeito, todo o ficheiro é tratado como um único objeto de conteúdo, o que significa que o ficheiro estará associado a uma única categoria.
A partir da versão GA, precisa de incluir a categoria other dentro do contentCategories para garantir que o conteúdo permaneça sem correspondência a qualquer uma das suas categorias definidas. Se a other categoria não estiver incluída, todos os ficheiros são forçados a ser classificados numa das categorias definidas por vocês. Cada um dos nomes das categorias que define contentCategories pode também incluir um description para dar mais informações sobre a categoria que está a definir.
Divisão de ficheiros de entrada
Quando você tem mais de um documento em um arquivo, o classificador pode identificar os diferentes tipos de documento contidos no arquivo de entrada com capacidade de divisão. A resposta do classificador contém os intervalos de páginas para cada um dos tipos de documentos identificados contidos em um arquivo. Essa resposta pode incluir várias instâncias do mesmo tipo de documento.
Quando executa a analyze operação, ela inclui agora uma enableSegment propriedade que lhe dá controlo granular sobre o comportamento de divisão. Você também pode especificar os números de página para analisar apenas determinadas páginas do documento de entrada:
- Para tratar todo o ficheiro de entrada como múltiplos documentos combinados para classificação, defina
enableSegmentparatrue. Quando o fazes, o serviço devolve automaticamente categorias para os segmentos dentro do ficheiro de entrada. - Para tratar todo o ficheiro de entrada como um único documento, defina
enableSegmentparafalse.
Observação
Para vídeos, só é suportada a segmentação. Deve definir um único contentCategories com enableSegment definido como true. Use o description campo para especificar critérios para dividir o vídeo em segmentos.
Análise opcional
Para um fluxo completo de ponta a ponta, pode ligar categorias de classificadores com analisadores personalizados existentes e analisadores pré-definidos. Para cada objeto de conteúdo classificado em categorias com analisadores vinculados, o serviço invoca automaticamente a análise no objeto de conteúdo usando o analisador correspondente.
Por exemplo, você pode usar esse link para criar classificadores que identifiquem e analisem apenas faturas de um PDF que contenha vários tipos de formulários em um documento. Configure analyzerId para um dos nossos analisadores pré-concebidos ou analisadores personalizados para encaminhar e efetuar a extração de campos dos documentos ou páginas classificadas.
Também pode omitir definir qualquer analyzerId para categorizar, mas não realizar qualquer análise de conteúdo no ficheiro ou segmento categorizado.
Na camada superior, pode também especificar omitContent como verdadeiro para garantir que o objeto de conteúdo original é omitido e apenas devolver objetos de conteúdo de outras análises realizadas no segmento ou ficheiros classificados.
Classificador hierárquico
A operação de analisador recém-desenhada permite a divisão e classificação hierárquica. Por exemplo, dentro da operação do analisador base, pode definir para analyzerID as categorias de conteúdo que definiu com o seu analisador personalizado, que realiza classificação ou divisão adicional, dependendo da necessidade. Definir analisadores hierárquicos permite cenários como a categorização de diferentes tipos de documentos, como faturas, contratos e recibos, onde o analyzerID para cada uma destas categorias pode ser uma operação de análise com classificação adicional ativada para diferentes tipos de ficheiros dentro de faturas, contratos e recibos.
As entradas de documentos suportam cinco níveis de aninhamento, e as entradas de vídeo suportam dois.
Limites do classificador
Para obter informações sobre formatos de documentos de entrada suportados e limites de classificadores, consulte Cotas e limites de serviço.
Melhores práticas
Para melhorar a classificação e a qualidade de divisão, use um bom nome e descrição de categoria para que o modelo possa entender as categorias com algum contexto. Para obter mais informações sobre nomes e descrições de categorias, consulte Práticas recomendadas.
Principais benefícios
- Precisão e confiabilidade: Garanta uma classificação precisa dos documentos para reduzir erros e aumentar a eficiência.
- Escalabilidade: amplie o processamento de documentos para atender às necessidades empresariais.
- Personalizável: adapte o classificador de documentos para se adequar a fluxos de trabalho específicos.
Idiomas e regiões suportados
Para obter uma lista de idiomas e regiões suportados, consulte Suporte a idiomas e regiões.
Privacidade e segurança dos dados
Os programadores que utilizam a Compreensão de Conteúdos devem rever as políticas da Microsoft relativas aos dados dos clientes. Para obter mais informações, consulte Dados, proteção e privacidade.
Conteúdo relacionado
- Tente processar o conteúdo do seu documento no Content Understanding Studio
- Aprenda como processar conteúdo documental usando modelos de analisadores.