Compartilhar via


Inserções multimodais (versão 4.0)

A inserção multimodal é o processo de geração de uma representação de vetor de uma imagem que captura respectivos recursos e características. Esses vetores codificam o conteúdo e o contexto de uma imagem de forma compatível com a pesquisa de texto no mesmo espaço de vetor.

Os sistemas de recuperação de imagem costumam usar recursos extraídos das imagens, como rótulos de conteúdo, marcas e descritores de imagem, para comparar imagens e classificá-las por similaridade. No entanto, a pesquisa de similaridade de vetor oferece uma série de benefícios em relação à pesquisa tradicional baseada em palavra-chave e está se tornando um componente vital nos serviços populares de pesquisa de conteúdo.

A pesquisa de palavra-chave é o método mais básico e tradicional de recuperação de informações. Nesta abordagem, o mecanismo de pesquisa procura a correspondência exata das palavras-chave ou frases inseridas pelo usuário na consulta de pesquisa e a compara com os rótulos e marcas fornecidos para as imagens. Depois, o mecanismo de pesquisa retorna imagens que contêm essas palavras-chave exatas como marcas de conteúdo e rótulos de imagem. A pesquisa de palavras-chave depende muito da capacidade do usuário de usar termos de pesquisa relevantes e específicos.

A busca em vetores procura grandes coleções de vetores no espaço de alta dimensão para localizar vetores semelhantes a uma determinada consulta. A pesquisa de vetor procura semelhanças semânticas capturando o contexto e o significado da consulta de pesquisa. Essa abordagem geralmente é mais eficiente do que as técnicas tradicionais de recuperação de imagem, pois pode reduzir o espaço de pesquisa e aumentar a precisão dos resultados.

Aplicativos de negócios

A inserção multimodal tem uma variedade de aplicações em diferentes campos, incluindo:

  • Gerenciamento de ativos digitais: a inserção multimodal pode ser usada para gerenciar grandes coleções de imagens digitais, como em museus, arquivos ou galerias online. Os usuários podem pesquisar imagens com base em recursos visuais e recuperar aquelas que correspondem aos critérios.
  • Segurança e vigilância: a vetorização pode ser usada em sistemas de segurança e vigilância para pesquisar imagens com base em recursos ou padrões específicos, como no rastreamento de objetos e pessoas ou na detecção de ameaças.
  • Recuperação de imagem forense: a vetorização pode ser usada em investigações forenses para pesquisar imagens com base no conteúdo visual ou em metadados, como em casos de crimes cibernéticos.
  • Comércio eletrônico: a vetorização pode ser usada em aplicativos de compras online para pesquisar produtos semelhantes com base em recursos ou descrições ou fornecer recomendações com base em compras anteriores.
  • Moda e design: a vetorização pode ser usada em moda e design para pesquisar imagens com base em recursos visuais, como cor, padrão ou textura. Isso pode ajudar designers ou varejistas a identificar produtos ou tendências semelhantes.

Atenção

A incorporação multimodal não foi projetada para analisar imagens médicas em busca de características de diagnóstico ou padrões de doença. Não use a inserção multimodal para fins médicos.

O que são inserções de vetor?

As inserções de vetor são uma forma de representar o conteúdo, texto ou imagens, como vetores de números reais em um espaço de alta dimensão. As inserções de vetor geralmente são aprendidas com grandes quantidades de dados textuais e visuais usando algoritmos de machine learning , como redes neurais.

Cada dimensão do vetor corresponde a um recurso ou atributo diferente do conteúdo, como significado semântico, função sintática ou contexto, no qual ele normalmente aparece. Na Visão do Azure no Foundry Tools, as inserções de vetor de imagem e texto têm 1024 dimensões.

Importante

As inserções de vetor só poderão ser comparadas e terem uma correspondência se forem do mesmo tipo de modelo. As imagens vetorizadas por um modelo não poderão ser pesquisadas por meio de um modelo diferente. A API da Análise de Imagem mais recente oferece dois modelos, a versão 2023-04-15, que dá suporte à pesquisa de texto em vários idiomas, e ao modelo herdado 2022-04-11, que só dá suporte ao inglês.

O processo de recuperação de imagem

Veja a seguir as principais etapas do processo de recuperação de imagem com o uso de inserções multimodais.

Diagrama do processo de inserção multimodal / recuperação de imagem.

  1. Vetorizar imagens e texto: as APIs de inserções multimodais, VectorizeImage e VectorizeText, podem ser usadas para extrair vetores de recurso de uma imagem ou um texto, respectivamente. As APIs retornam um só vetor de recurso que representa toda a entrada.

    Observação

    A inserção multimodal não faz nenhum processamento biométrico de rostos humanos. Para detecção e identificação facial, consulte o serviço de Detecção Facial de IA do Azure.

  2. Medir similaridade: os sistemas de pesquisa de vetor normalmente usam métricas de distância, como distância de cosseno ou distância euclidiana, para comparar vetores e classificá-los por similaridade. A demonstração do Vision Studio usa a distância de cosseno para medir a similaridade.
  3. Recuperar imagens: use os N principais vetores semelhantes à consulta de pesquisa e recupere as imagens correspondentes a esses vetores de fototeca para fornecer como resultado final.

Classificação de relevância

O serviço de recuperação de imagem retorna um campo chamado "relevância". O termo "relevância" indica uma medida de similaridade entre uma consulta e inserções de imagem. A pontuação de relevância é composta por duas partes:

  1. A similaridade de cosseno (que fica no intervalo de [0,1]) entre as inserções de consulta ou imagem.
  2. Uma pontuação de metadados, que reflete a semelhança entre a consulta e os metadados associados à imagem.

Importante

A pontuação de relevância é uma boa medida para classificar resultados como imagens em relação a uma única consulta. No entanto, a pontuação de relevância não pode ser comparada com precisão entre consultas. Portanto, não é possível mapear facilmente a pontuação de relevância para um nível de confiança. Também não é possível criar trivialmente um algoritmo de limite para eliminar resultados irrelevantes com base apenas na pontuação de relevância.

Requisitos de entrada

Entrada de imagem

  • O tamanho do arquivo da imagem deve ser menor que 20 MB (megabytes)
  • As dimensões da imagem devem ser maiores que 10 x 10 pixels e menores que 16.000 x 16.000 pixels

Entrada de texto

  • A cadeia de caracteres de texto deve estar entre uma palavra (inclusive) e 70 palavras.

Próxima etapa

Habilite as inserções multimodais no serviço de pesquisa e siga as etapas para gerar inserções de vetor para texto e imagens.