Compartilhar via


Noções básicas sobre o conteúdo do Azure nas soluções de vídeo do Foundry Tools (versão prévia)

Importante

O Azure Content Understanding está disponível na versão prévia. As visualizações públicas fornecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem alterar ou ter recursos limitados antes da GA (Disponibilidade Geral). Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

O Entendimento de Conteúdo do Azure permite que você gere um conjunto padrão de metadados de vídeo e crie campos personalizados para seu caso de uso específico usando modelos generativos. O Content Understanding ajuda você a gerenciar, categorizar, recuperar e criar fluxos de trabalho para ativos de vídeo. Ele aprimora sua biblioteca de ativos de mídia, dá suporte a recursos como geração de realce, categoriza conteúdo e facilita aplicativos como RAG (geração aumentada por recuperação).

Ilustração do fluxo de processamento de vídeo do Content Understanding.

O analisador de vídeo pré-definido (prebuilt-videoAnalysis) gera a saída pronta para RAG. No Markdown, ele gera o seguinte:

  • Transcrição: Transcrições embutidas no formato WEBVTT padrão
  • Quadros-chave: Miniaturas de quadros-chave ordenadas, permitindo uma análise mais detalhada

E o esquema JSON contém mais detalhes da análise visual.

  • Descrição: Descrições de segmento de linguagem natural com contexto visual e de fala
  • Segmentação: Segmentação automática de cena quebrando o vídeo em partes lógicas com base nas categorias que você define

Esse formato pode ser colocado diretamente em um repositório de vetores para habilitar um agente ou fluxo de trabalho RAG. Nenhum pós-processamento é necessário.

A partir daí, você pode personalizar o analisador para um controle mais refinado da saída. Você pode definir campos e segmentos personalizados. A personalização permite que você use todo o poder dos modelos generativos para extrair insights profundos dos detalhes visuais e de áudio do vídeo.

Por exemplo, a personalização permite que você:

  • Defina campos personalizados: para identificar quais produtos e marcas são vistos ou mencionados no vídeo.
  • Gere segmentos personalizados: segmentar uma transmissão de notícias em capítulos com base nos tópicos ou notícias discutidas.
  • Identifique pessoas proeminentes usando a descrição do rosto: permitindo que um cliente rotule celebridades em imagens com nome e título com base no conhecimento mundial do modelo generativo, por exemplo, Satya Nadella.

Por que usar o Content Understanding para vídeo?

A compreensão de conteúdo para vídeo tem amplos usos potenciais. Por exemplo, você pode personalizar metadados para marcar cenas específicas em um vídeo de treinamento, tornando mais fácil para os funcionários localizar e revisitar seções importantes. Você também pode usar a personalização de metadados para identificar o posicionamento do produto em vídeos promocionais, o que ajuda as equipes de marketing a analisar a exposição da marca. Outros casos de uso incluem:

  • Mídia e entretenimento de transmissão: Gerencie grandes bibliotecas de shows, filmes e clipes gerando metadados detalhados para cada ativo.
  • Educação e e-Learning: Indexe e recupere momentos específicos em vídeos educativos ou palestras.
  • Treinamento corporativo: Organize vídeos de treinamento por tópicos principais, cenas ou momentos importantes.
  • Marketing e publicidade: Analise vídeos promocionais para extrair posicionamentos de produtos, aparências de marca e mensagens-chave.

Exemplo de analisador de vídeo predefinido

Com o analisador de vídeo predefinido (predefinido-videoSearch), você pode carregar um vídeo e obter um ativo de conhecimento imediatamente usável. O serviço empacota o conteúdo em Markdown e JSON com formatação avançada. Esse processo permite que seu índice de pesquisa ou agente de chat ingira o conteúdo sem código de integração personalizado.

  1. Por exemplo, chame o analisador projetado para a Geração aumentada de recuperação de vídeo prebuilt-videoSearch. Consulte o início rápido da API REST para obter detalhes.

  2. Em seguida, analisar um vídeo de publicidade de 30 segundos resultaria na seguinte saída:

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Walkthrough

Confira o seguinte passo a passo para RAG em vídeo usando o Content Understanding:

RAG em vídeo usando o Azure Content Understanding

Capacidades

Observação

Os recursos de identificação facial e agrupamento só estão disponíveis na versão prévia da API e não estão incluídos na versão GA.

Nos bastidores, duas etapas transformam pixels brutos em insights prontos para os negócios. O diagrama abaixo mostra como a extração alimenta a geração, garantindo que cada etapa downstream tenha o contexto necessário.

Captura de tela do fluxo do analisador de vídeo.

O serviço opera em dois estágios. O primeiro estágio, a extração de conteúdo, envolve a captura de metadados fundamentais, como transcrições e capturas. O segundo estágio, extração de campo, usa um modelo de geração para produzir campos personalizados e executar a segmentação.

Recursos de extração de conteúdo

O primeiro passo é extrair um primeiro conjunto de detalhes - quem está falando e onde estão os cortes. Ele cria uma estrutura de metadados sólida que as etapas posteriores podem analisar.

  • Transcrição: Converte áudio de conversa em transcrições pesquisáveis e analisaveis baseadas em texto no formato WebVTT. Os carimbos de data/hora no nível da sentença estarão disponíveis se "returnDetails": true estiver definido. O Content Understanding dá suporte ao conjunto completo de linguagens de conversão de fala em texto do Azure Speech in Foundry Tools. Os detalhes do suporte de linguagem para vídeo são os mesmos que o áudio, consulteTratamento de Linguagem de Áudio para obter detalhes. Os seguintes detalhes de transcrição são importantes para considerar:

    • Diarização: Distingue entre os locutores em uma conversa no resultado, atribuindo partes da transcrição a locutores específicos.

    • Transcrição multilíngue: Gera transcrições multilíngues. Idioma/localidade é aplicado por frase na transcrição. Saída de frases quando "returnDetails": true é definido. Desviando da detecção de idioma, esse recurso é habilitado quando nenhum idioma/localidade é especificado ou o idioma é definido como auto.

      Observação

      Quando a transcrição multilíngue é usada, todos os arquivos com localidades sem suporte produzem um resultado com base na localidade com suporte mais próxima, o que provavelmente está incorreto. Esse resultado é um comportamento conhecido. Evite problemas de qualidade de transcrição, garantindo que você configure localidades ao não usar uma localidade com suporte para transcrição multilíngue!

    • Extração de quadro-chave: Extrai quadros-chave de vídeos para representar cada captura completamente, garantindo que cada captura tenha quadros-chave suficientes para permitir que a extração de campos funcione efetivamente.

    • Detecção de captura: identifica segmentos do vídeo alinhados com os limites de captura sempre que possível, permitindo edição precisa e reempacotamento do conteúdo com quebras exatamente iguais às edições existentes. A saída é uma lista de marcas temporais em milissegundos em cameraShotTimesMs. A saída só é retornada quando "returnDetails": true é definida.

Extração e segmentação de campo

Em seguida, o modelo gerativo atribui significado às camadas: marca cenas, resume ações e corta imagens em segmentos de acordo com sua solicitação. Essa ação é onde os prompts se transformam em dados estruturados.

Campos Personalizados

Modele o resultado para corresponder ao vocabulário da empresa. Use um fieldSchema objeto em que cada entrada define o nome, o tipo e a descrição de um campo. Em tempo de execução, o modelo de geração preenche esses campos para cada segmento.

  • Gerenciamento de ativos de mídia:

    • Categoria de vídeo: Ajuda editores e produtores a organizar o conteúdo, classificando-o como Notícias, Esportes, Entrevista, Documentário, Anúncio etc. Útil para marcação de metadados e filtragem e recuperação de conteúdo mais rápidas.
    • Esquema de cores: Transmite humor e atmosfera, essenciais para a consistência narrativa e o engajamento do espectador. Identificar temas de cores ajuda a encontrar clipes correspondentes para edição acelerada de vídeo.
  • Publicidade:

    • Marca: Identifica a presença da marca, essencial para analisar o impacto do anúncio, a visibilidade da marca e a associação com os produtos. Esta funcionalidade permite que os anunciantes avaliem a proeminência da marca e garantam a conformidade com as diretrizes de identidade visual.
    • Categorias de anúncios: Categoriza tipos de anúncios por setor, tipo de produto ou segmento de audiência, que dá suporte a estratégias de publicidade direcionadas, categorização e análise de desempenho.

Exemplo:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Campos de descrição facial

Observação

Esse recurso é de acesso limitado; os clientes precisam solicitar para desabilitar o desfoque facial para modelos do Azure OpenAI com uma solicitação de suporte do Azure. Saiba mais Gerenciar uma solicitação de suporte do Azure.

Opcionalmente, a funcionalidade de extração de campo pode ser aprimorada para fornecer descrições detalhadas de rostos no vídeo. Essa funcionalidade inclui atributos como pelos faciais, expressão facial e presença de celebridades, que podem ser cruciais para várias finalidades analíticas e de indexação. Para habilitar os recursos de descrição facial, defina disableFaceBlurring : true na configuração do analisador.

Exemplos:

  • Campo de exemplo: facialHairDescription: Descreve o tipo de pelos faciais (por exemplo, beard, , mustache) clean-shaven
  • Campo de exemplo: nameOfProminentPerson: Fornece um nome, se possível, de uma celebridade no vídeo (por exemplo, Satya Nadella)
  • Campo de exemplo: faceSmilingFrowning: Fornece uma descrição de se uma pessoa está sorrindo ou franzindo a testa

Modo de segmentação

Observação

A definição de segmentação usará o modelo generativo, consumindo tokens mesmo se nenhum campo for definido.

O Content Understanding oferece duas maneiras de fatiar um vídeo, permitindo que você obtenha a saída necessária para vídeos inteiros ou clipes curtos. Você pode usar essas opções definindo a enableSegment propriedade em um analisador personalizado.

  • Vídeo inteiroenableSegment : false O serviço trata todo o arquivo de vídeo como um único segmento e extrai metadados por toda a duração.

    Casos de uso:

    • Verificações de conformidade que buscam problemas específicos de segurança de marca em qualquer lugar em um anúncio
    • resumos descritivos completos
  • Segmentação personalizadaenableSegment : true você descreve a lógica em linguagem natural e o modelo cria segmentos para corresponder. Defina contentCategories com uma cadeia de caracteres que descreve como você gostaria que o vídeo fosse segmentado. O modo personalizado permite segmentos com comprimento variável de segundos a minutos, dependendo do prompt. Nesta versão, o vídeo dá suporte apenas a um contentCategories objeto.

    Exemplo: Divida uma transmissão de notícias em histórias.

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

Principais benefícios

A compreensão de conteúdo fornece vários benefícios importantes quando comparada a outras soluções de análise de vídeo:

  • Análise de vários quadros baseada em segmento: Identifique ações, eventos, tópicos e temas analisando vários quadros de cada segmento de vídeo, em vez de quadros individuais.
  • Personalização: Personalize os campos e a segmentação gerados modificando o esquema de acordo com seu caso de uso específico.
  • Modelos generativos: Descreva em linguagem natural qual conteúdo você deseja extrair e o Content Understanding usa modelos generativos para extrair esses metadados.
  • Pré-processamento otimizado: Execute várias etapas de pré-processamento de extração de conteúdo, como transcrição e detecção de cena, otimizadas para fornecer contexto avançado a modelos geradores de IA.

Restrições técnicas e limitações

Limitações específicas do processamento de vídeo para ter em mente:

  • Amostragem de quadro (~ 1 FPS): o analisador inspeciona cerca de um quadro por segundo. Os movimentos rápidos ou eventos de quadro único podem ser perdidos.
  • Resolução de quadro (512 × 512 px): os quadros amostrados são redimensionados para 512 pixels quadrados. Texto pequeno ou objetos distantes podem ser perdidos.
  • Fala: Somente as palavras verbalizadas são transcritas. Música, efeitos sonoros e ruído ambiente são ignorados.

Requisitos de entrada

Para formatos com suporte, consulte cotas e limites de serviço.

Idiomas e regiões com suporte

Consulte o suporte a idiomas e regiões.

Segurança e privacidade de dados

Assim como acontece com todas as Ferramentas Foundry, examine a Documentação de Dados, Proteção e Privacidade da Microsoft.

Importante

Se você processar Dados Biométricos (por exemplo, habilitar a Descrição do Rosto), deverá atender a todos os requisitos de aviso, consentimento e exclusão de acordo com as leis aplicáveis. Veja Dados e privacidade para Detecção Facial.