Partilhar via


Incorporações multimodais (versão 4.0)

A incorporação multimodal é o processo de gerar uma representação vetorial de uma imagem que captura suas características e características. Esses vetores codificam o conteúdo e o contexto de uma imagem de uma forma compatível com a pesquisa de texto no mesmo espaço vetorial.

Os sistemas de recuperação de imagens tradicionalmente usam recursos extraídos das imagens, como rótulos de conteúdo, tags e descritores de imagem, para comparar imagens e classificá-las por semelhança. No entanto, a pesquisa por semelhança vetorial oferece uma série de benefícios em relação à pesquisa tradicional baseada em palavras-chave e está se tornando um componente vital em serviços populares de pesquisa de conteúdo.

A pesquisa por palavras-chave é o método mais básico e tradicional de recuperação de informação. Nesta abordagem, o motor de busca procura a correspondência exata das palavras-chave ou frases introduzidas pelo utilizador na consulta de pesquisa e compara-a com as etiquetas e etiquetas fornecidas para as imagens. Em seguida, o mecanismo de pesquisa retorna imagens que contêm essas palavras-chave exatas como tags de conteúdo e rótulos de imagem. A pesquisa por palavra-chave depende fortemente da capacidade do utilizador de utilizar termos de pesquisa relevantes e específicos.

A pesquisa vetorial pesquisa grandes coleções de vetores no espaço de alta dimensão para encontrar vetores que são semelhantes a uma determinada consulta. A pesquisa vetorial procura semelhanças semânticas capturando o contexto e o significado da consulta de pesquisa. Esta abordagem é muitas vezes mais eficiente do que as técnicas tradicionais de recuperação de imagens, uma vez que pode reduzir o espaço de pesquisa e melhorar a precisão dos resultados.

Aplicações empresariais

A incorporação multimodal tem uma variedade de aplicações em diferentes campos, incluindo:

  • Gerenciamento de ativos digitais: a incorporação multimodal pode ser usada para gerenciar grandes coleções de imagens digitais, como museus, arquivos ou galerias on-line. Os usuários podem pesquisar imagens com base em recursos visuais e recuperar as imagens que correspondem aos seus critérios.
  • Segurança e vigilância: A vetorização pode ser usada em sistemas de segurança e vigilância para procurar imagens com base em características ou padrões específicos, como rastreamento de pessoas e objetos ou deteção de ameaças.
  • Recuperação de imagens forenses: A vetorização pode ser usada em investigações forenses para procurar imagens com base em seu conteúdo visual ou metadados, como em casos de crimes cibernéticos.
  • E-commerce: A vetorização pode ser usada em aplicativos de compras on-line para pesquisar produtos semelhantes com base em suas características ou descrições ou fornecer recomendações com base em compras anteriores.
  • Moda e design: A vetorização pode ser usada na moda e no design para pesquisar imagens com base em suas características visuais, como cor, padrão ou textura. Isso pode ajudar designers ou varejistas a identificar produtos ou tendências semelhantes.

Atenção

A incorporação multimodal não foi projetada para analisar imagens médicas em busca de recursos de diagnóstico ou padrões de doenças. Por favor, não use a incorporação multimodal para fins médicos.

O que são incorporações vetoriais?

As incorporações vetoriais são uma forma de representar o conteúdo — texto ou imagens — como vetores de números reais em um espaço de alta dimensão. As incorporações vetoriais são frequentemente aprendidas a partir de grandes quantidades de dados textuais e visuais usando algoritmos de aprendizado de máquina, como redes neurais.

Cada dimensão do vetor corresponde a uma característica ou atributo diferente do conteúdo, como seu significado semântico, papel sintático ou contexto no qual ele comumente aparece. No Azure Vision, integrado nas Foundry Tools, os embeddings vetoriais de imagem e texto têm 1024 dimensões.

Importante

As incorporações vetoriais só podem ser comparadas e combinadas se forem do mesmo tipo de modelo. As imagens vetorizadas por um modelo não serão pesquisáveis através de um modelo diferente. A mais recente API de Análise de Imagem oferece dois modelos, a versão 2023-04-15 que suporta pesquisa de texto em muitos idiomas e o modelo legado 2022-04-11 que suporta apenas o inglês.

O processo de recuperação de imagem

A seguir estão as principais etapas do processo de recuperação de imagem usando incorporações multimodais.

Diagrama do processo de incorporação multimodal / recuperação de imagem.

  1. Vetorizar imagens e texto: as APIs de incorporação multimodal, VectorizeImage e VectorizeText, podem ser usadas para extrair vetores de recursos de uma imagem ou texto, respectivamente. As APIs retornam um único vetor de recurso que representa toda a entrada.

    Nota

    A incorporação multimodal não faz nenhum processamento biométrico de rostos humanos. Para deteção e identificação de rosto, consulte o serviço Azure AI Face.

  2. Medir a semelhança: Os sistemas de busca vetorial normalmente usam métricas de distância, como distância cosseno ou distância euclidiana, para comparar vetores e classificá-los por semelhança. A demonstração do Vision Studio usa distância cosseno para medir a semelhança.
  3. Recuperar imagens: use os N vetores superiores semelhantes à consulta de pesquisa e recupere as imagens correspondentes a esses vetores da sua biblioteca de fotos para fornecer como resultado final.

Pontuação de relevância

O serviço de recuperação de imagem retorna um campo chamado "relevância". O termo "relevância" denota uma medida de semelhança entre uma consulta e incorporações de imagem. A pontuação de relevância é composta por duas partes:

  1. A semelhança cosseno (que se enquadra no intervalo de [0,1]) entre a consulta e as incorporações de imagem.
  2. Uma pontuação de metadados, que reflete a semelhança entre a consulta e os metadados associados à imagem.

Importante

A pontuação de relevância é uma boa medida para classificar resultados, como imagens, em relação a uma única consulta. No entanto, a pontuação de relevância não pode ser comparada com precisão entre consultas. Portanto, não é possível mapear facilmente a pontuação de relevância para um nível de confiança. Também não é possível criar trivialmente um algoritmo de limite para eliminar resultados irrelevantes com base apenas na pontuação de relevância.

Requisitos de entrada

Entrada de imagem

  • O tamanho do ficheiro da imagem tem de ser inferior a 20 megabytes (MB)
  • As dimensões da imagem devem ser maiores que 10 x 10 pixels e menores que 16.000 x 16.000 pixels

Entrada de texto

  • A cadeia de texto deve estar entre (inclusive) uma palavra e 70 palavras.

Próximo passo

Habilite as incorporações multimodais para seu serviço de pesquisa e siga as etapas para gerar incorporações vetoriais para texto e imagens.