Partilhar via


Soluções de vídeo do Azure Content Understanding nos Foundry Tools (versão preliminar)

Importante

O Azure Content Understanding está disponível em pré-visualização. As versões de visualização pública fornecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem mudar ou ter recursos limitados antes da Disponibilidade Geral (GA). Para obter mais informações, consulte Termos de uso suplementares para visualizações do Microsoft Azure.

O Azure Content Understanding permite-lhe gerar um conjunto padrão de metadados de vídeo e criar campos personalizados para o seu caso de uso específico usando modelos generativos. O Entendimento de Conteúdo ajuda você a gerenciar, categorizar, recuperar e criar fluxos de trabalho para ativos de vídeo. Ele aprimora sua biblioteca de ativos de mídia, suporta recursos como geração de destaque, categoriza conteúdo e facilita aplicativos como geração aumentada de recuperação (RAG).

Ilustração do fluxo de processamento de vídeo de Compreensão de Conteúdo.

O analisador de vídeo pré-instalado (prebuilt-videoAnalysis) gera saída pronta para RAG. No Markdown, gera o seguinte:

  • Transcrição: Transcrições em linha no formato WEBVTT padrão
  • Quadros-chave: Miniaturas de quadros-chave ordenadas que permitem uma análise mais profunda

E o esquema JSON contém mais detalhes da análise visual.

  • Descrição: Descrições de segmentos em linguagem natural com contexto visual e de fala
  • Segmentação: Segmentação automática de cenas que divide o vídeo em blocos lógicos com base nas categorias que defines

Esse formato pode ser inserido diretamente em um armazém de vetores para habilitar um fluxo de trabalho de agente ou RAG — não requer pós-processamento.

A partir daí, você pode personalizar o analisador para um controle mais refinado da saída. Podes definir campos e segmentos personalizados. A personalização permite que você use todo o poder dos modelos generativos para extrair insights profundos dos detalhes visuais e de áudio do vídeo.

Por exemplo, a personalização permite:

  • Definir campos personalizados: para identificar quais produtos e marcas são vistos ou mencionados no vídeo.
  • Gerar segmentos personalizados: para segmentar uma transmissão de notícias em capítulos com base nos tópicos ou notícias discutidas.
  • Identifique pessoas proeminentes usando descrição facial: permitindo que um cliente identifique celebridades em imagens com nome e título com base no conhecimento mundial do modelo generativo, por exemplo, Satya Nadella.

Por que usar o Content Understanding para vídeo?

A compreensão de conteúdo para vídeo tem amplos usos potenciais. Por exemplo, você pode personalizar metadados para marcar cenas específicas em um vídeo de treinamento, tornando mais fácil para os funcionários localizar e revisitar seções importantes. Você também pode usar a personalização de metadados para identificar o posicionamento do produto em vídeos promocionais, o que ajuda as equipes de marketing a analisar a exposição da marca. Outros casos de utilização incluem:

  • Meios de difusão e entretenimento: Gerencie grandes bibliotecas de shows, filmes e clipes gerando metadados detalhados para cada ativo.
  • Educação e e-Learning: Indexe e recupere momentos específicos em vídeos educativos ou palestras.
  • Formação corporativa: Organize vídeos de treinamento por tópicos-chave, cenas ou momentos importantes.
  • Marketing e publicidade: Analise vídeos promocionais para extrair posicionamentos de produtos, aparências de marca e mensagens-chave.

Exemplo de analisador de vídeo pré-construído

Com o analisador de vídeo pré-construído (prebuilt-videoSearch), pode carregar um vídeo e obter um ativo de conhecimento imediatamente utilizável. O serviço agrupa o conteúdo em Markdown e JSON ricamente formatados. Este processo permite que o seu índice de pesquisa ou agente de chat absorva o conteúdo sem código de cola personalizado.

  1. Por exemplo, chame o analisador concebido para a geração aumentada por recolha de dados em vídeo prebuilt-videoSearch. Consulte o quickstart da API REST para mais detalhes.

  2. Em seguida, analisando um vídeo de publicidade de 30 segundos, resultaria na seguinte saída:

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Walkthrough

Consulte o seguinte passo a passo para aplicação de RAG em vídeo usando Compreensão de Conteúdo.

RAG on Video utilizando Azure Content Understanding

Capacidades

Observação

As capacidades de identificação facial e agrupamento estão disponíveis apenas na versão de pré-visualização da API e não estão incluídas na versão GA.

Sob o capô, dois estágios transformam pixels brutos em insights prontos para os negócios. O diagrama abaixo mostra como a extração alimenta a geração, garantindo que cada etapa a jusante tenha o contexto necessário.

Captura de tela do fluxo do analisador de vídeo.

O serviço funciona em duas fases. A primeira etapa, extração de conteúdo, envolve a recolha de metadados fundamentais, como transcrições e imagens. A segunda etapa, extração de campo, usa um modelo generativo para produzir campos personalizados e realizar segmentação.

Recursos de extração de conteúdo

A primeira passagem consiste em extrair um conjunto inicial de detalhes — quem está a falar e onde estão os cortes. Cria uma estrutura sólida de metadados que pode ser utilizada por passos seguintes.

  • Transcrição: Converte áudio conversacional em transcrições baseadas em texto pesquisáveis e analisáveis no formato WebVTT. Os carimbos de data/hora no nível da frase estão disponíveis se "returnDetails": true estiver definido. O Content Understanding suporta o conjunto completo de Azure Speech nas linguagens de voz para texto das Foundry Tools. Os detalhes do suporte a idiomas para vídeo são os mesmos que o áudio, consulteTratamento de idioma de áudio para obter detalhes. Os seguintes detalhes de transcrição são importantes a considerar:

    • Diarização: Distingue entre oradores numa conversa no output, atribuindo partes da transcrição a oradores específicos.

    • Transcrição multilingue: Gera transcrições multilingues. O idioma/localidade é aplicado por frase na transcrição. Frases apresentadas quando "returnDetails": true é definido. Desviando-se da deteção de idioma, esse recurso é habilitado quando nenhum idioma/localidade é especificado ou o idioma está definido como auto.

      Observação

      Quando a transcrição multilíngue é usada, todos os arquivos com localidades sem suporte produzem um resultado com base na localidade suportada mais próxima, o que provavelmente está incorreto. Este resultado é um comportamento conhecido. Evite problemas de qualidade de transcrição, garantindo que você configure localidades quando não estiver usando uma localidade com suporte de transcrição multilíngue!

    • Extração do quadro-chave: Extrai quadros-chave de vídeos para representar cada foto completamente, garantindo que cada foto tenha quadros-chave suficientes para permitir que a extração de campo funcione de forma eficaz.

    • Deteção de corte: Identifica segmentos do vídeo alinhados com os limites de corte sempre que possível, permitindo a edição precisa e o reempacotamento do conteúdo com interrupções exatamente onde existem edições. A saída é uma lista de timestamps em milissegundos no formato cameraShotTimesMs. A saída só é retornada quando "returnDetails": true é definida.

Extração e segmentação de campo

Em seguida, o modelo generativo coloca camadas de significado — marcando cenas, resumindo ações e dividindo imagens em segmentos de acordo com sua solicitação. Essa ação é onde os prompts se transformam em dados estruturados.

Campos personalizados

Molde o resultado para adequar-se ao vocabulário do seu negócio. Use um fieldSchema objeto onde cada entrada define o nome, o tipo e a descrição de um campo. Em tempo de execução, o modelo generativo preenche esses campos para cada segmento.

  • Gestão de ativos de mídia:

    • Categoria de Vídeo: Ajuda editores e produtores a organizar conteúdos, classificando-os como Notícias, Esportes, Entrevistas, Documentários, Anúncios, etc. Útil para marcação de metadados e filtragem e recuperação de conteúdo mais rápidas.
    • Esquema de cores: Transmite humor e atmosfera, essenciais para a consistência narrativa e o envolvimento do espectador. A identificação de temas de cores ajuda a encontrar clipes correspondentes para edição de vídeo acelerada.
  • Publicidade:

    • Marca: Identifica a presença da marca, essencial para analisar o impacto do anúncio, a visibilidade da marca e a associação com os produtos. Esse recurso permite que os anunciantes avaliem a proeminência da marca e garantam a conformidade com as diretrizes da marca.
    • Categorias de anúncios: Categoriza os tipos de anúncios por setor, tipo de produto ou segmento de público-alvo, o que oferece suporte a estratégias de publicidade direcionada, categorização e análise de desempenho.

Exemplo:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Campos de descrição facial

Observação

Esta funcionalidade tem acesso limitado; os clientes precisam solicitar a desativação do desfoque facial nos modelos Azure OpenAI através de um pedido de suporte Azure. Saiba mais Gerir um pedido de suporte Azure.

A capacidade de extração de campo pode ser opcionalmente melhorada para fornecer descrições detalhadas dos rostos no vídeo. Esta capacidade inclui atributos como pelos faciais, expressões faciais e a presença de celebridades, que podem ser cruciais para vários fins analíticos e de indexação. Para habilitar os recursos de descrição facial, defina disableFaceBlurring : true na configuração do analisador.

Exemplos:

  • Campo de exemplo: facialHairDescription: Descreve o tipo de pelos faciais (por exemplo, beard, mustache, clean-shaven)
  • Campo de exemplo: nomeDePessoaProeminente: Fornece o nome, se possível, de uma celebridade no vídeo (por exemplo, Satya Nadella)
  • Campo de exemplo: rostoSorridenteFranzido: Fornece uma descrição de se a pessoa está a sorrir ou a franzir o cenho

Modo de segmentação

Observação

Definir segmentação irá usar o modelo generativo, consumindo tokens mesmo que não existam campos definidos.

O Content Understanding oferece duas formas de cortar um vídeo, permitindo-lhe obter o resultado necessário para vídeos completos ou clipes curtos. Você pode usar essas opções definindo a enableSegment propriedade em um analisador personalizado.

  • Vídeo completoenableSegment : false O serviço trata todo o arquivo de vídeo como um único segmento e extrai metadados em toda a sua duração.

    Casos de utilização:

    • Verificações de conformidade que procuram problemas específicos de segurança de marca em qualquer parte de um anúncio
    • resumos descritivos completos
  • Segmentação personalizadaenableSegment : true Você descreve a lógica em linguagem natural e o modelo cria segmentos para corresponder. Defina contentCategories com uma cadeia de caracteres descrevendo como você gostaria que o vídeo fosse segmentado. Custom permite segmentos de duração variável de segundos a minutos, dependendo do prompt. Nesta versão, o vídeo só suporta um contentCategories objeto.

    Exemplo: Divide uma transmissão de notícias em notícias.

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

Principais benefícios

O Content Understanding oferece vários benefícios importantes quando comparado a outras soluções de análise de vídeo:

  • Análise multi-frame baseada em segmentos: Identifique ações, eventos, tópicos e temas analisando vários quadros de cada segmento de vídeo, em vez de quadros individuais.
  • Personalização: Personalize os campos e a segmentação gerados modificando o esquema de acordo com seu caso de uso específico.
  • Modelos generativos: Descreva em linguagem natural qual conteúdo você deseja extrair e o Content Understanding usa modelos generativos para extrair esses metadados.
  • Pré-processamento otimizado: Execute várias etapas de pré-processamento de extração de conteúdo, como transcrição e deteção de cena, otimizadas para fornecer contexto rico para modelos generativos de IA.

Limitações e condicionalismos técnicos

Limitações específicas do processamento de vídeo a ter em mente:

  • Amostragem de quadros (~ 1 FPS): O analisador inspeciona cerca de um quadro por segundo. Movimentos rápidos ou eventos de frames individuais podem não ser capturados.
  • Resolução de quadros (512 × 512 px): Os quadros amostrados são redimensionados para 512 pixels quadrados. Pequenos textos ou objetos distantes podem ser perdidos.
  • Discurso: Apenas as palavras faladas são transcritas. Música, efeitos sonoros e ruído ambiente são ignorados.

Requisitos de entrada

Para formatos suportados, consulte Cotas e limites de serviço.

Idiomas e regiões suportados

Consulte Suporte a idiomas e regiões.

Privacidade e segurança dos dados

Como em todas as Ferramentas Foundry, reveja a documentação de dados, proteção e privacidade da Microsoft.

Importante

Se processar Dados Biométricos (por exemplo, ativar a Descrição Facial), deve cumprir todos os requisitos de notificação, consentimento e eliminação previstos nas leis aplicáveis. Consulte Dados e Privacidade para Face.