Partilhar via


O que é a Análise de Imagem?

O serviço de Análise de Imagens da Azure Vision na Foundry Tools pode extrair uma grande variedade de características visuais das suas imagens. Por exemplo, pode determinar se uma imagem contém conteúdo adulto, encontrar marcas ou objetos específicos ou encontrar rostos humanos.

A versão mais recente do Image Analysis, 4.0, que agora está disponível em geral, tem novos recursos como OCR síncrono e deteção de pessoas. Use esta versão daqui para frente.

Você pode usar a Análise de Imagem por meio de um SDK de biblioteca de cliente ou chamando a API REST diretamente. Siga o quickstart para começar.

Ou, você pode experimentar os recursos da Análise de Imagem de forma rápida e fácil em seu navegador usando o Vision Studio.

Esta documentação contém os seguintes tipos de artigos:

  • Os instruções rápidas são guias passo a passo que lhe permitem efetuar chamadas ao serviço e obter resultados em curto espaço de tempo.
  • Os guias de instruções contêm instruções para usar o serviço de maneiras mais específicas ou personalizadas.
  • Os artigos conceituais fornecem explicações detalhadas sobre a funcionalidade e os recursos do serviço.

Para uma abordagem mais estruturada, siga um módulo de Formação em Análise de Imagem.

Versões de Análise de Imagem

Important

Selecione a versão da API de Análise de Imagem que melhor se adapta às suas necessidades.

Version Funcionalidades disponíveis Recommendation
versão 4.0 Ler texto, Legendas, Legendas densas, Tags, Deteção de objetos, Pessoas, Corte inteligente Melhores modelos; Use a versão 4.0 se ela suportar seu caso de uso.
Versão 3.2 Tags, Objetos, Descrições, Marcas, Rostos, Tipo de imagem, Esquema de cores, Pontos de referência, Celebridades, Conteúdo adulto, Corte inteligente Maior variedade de funcionalidades; Use a versão 3.2 se o seu caso de uso ainda não for suportado na versão 4.0

Recomendamos que você use a API do Image Analysis 4.0 se ela oferecer suporte ao seu caso de uso. Use a versão 3.2 se o seu caso de uso ainda não for suportado pela 4.0.

Você também precisará usar a versão 3.2 se quiser fazer legendas de imagem e seu recurso Visão estiver fora das regiões do Azure com suporte. O recurso de legenda de imagem no Image Analysis 4.0 só tem suporte em determinadas regiões do Azure. Legendas de imagem na versão 3.2 estão disponíveis em todas as regiões Azure Vision. Consulte Disponibilidade da região.

Análise de Imagens

Você pode analisar imagens para obter informações sobre seus recursos e características visuais. A API Analyze Image fornece todos os recursos desta tabela. Para começar, siga um guia de início rápido.

Name Description Página de conceito
Personalização do modelo (apenas visualização v4.0) (preterido) Crie e treine modelos personalizados para classificação de imagens ou deteção de objetos. Traga suas próprias imagens, rotule-as com tags personalizadas e a Análise de Imagem treina um modelo personalizado para seu caso de uso. Personalização do modelo
Ler texto de imagens (apenas v4.0) A pré-visualização da versão 4.0 da Análise de Imagem oferece a capacidade de extrair texto legível de imagens. Em comparação com a API de leitura assíncrona do Computer Vision 3.2, a nova versão oferece o conhecido mecanismo Read OCR em uma API síncrona unificada com desempenho aprimorado que facilita a obtenção de OCR junto com outras informações em uma única chamada de API. OCR para imagens
Detetar pessoas em imagens (somente v4.0) A versão 4.0 da Análise de Imagem oferece a capacidade de detetar pessoas que aparecem em imagens. A API retorna as coordenadas da caixa delimitadora de cada pessoa detetada, juntamente com uma pontuação de confiança. Deteção de pessoas
Gerar legendas de imagem Gere uma legenda de uma imagem em linguagem legível por humanos, usando frases completas. Os algoritmos da Computer Vision geram legendas com base nos objetos identificados na imagem.

O modelo de legendagem de imagem versão 4.0 é uma implementação mais avançada e funciona com uma gama mais ampla de imagens de entrada. Está disponível apenas em determinadas regiões geográficas. Consulte Disponibilidade da região.

A versão 4.0 também permite usar legendas densas, que geram legendas detalhadas para objetos individuais encontrados na imagem. A API retorna as coordenadas da caixa delimitadora (em pixels) de cada objeto encontrado na imagem, além de uma legenda. Você pode usar essa funcionalidade para gerar descrições de partes separadas de uma imagem.

Foto de vacas com uma descrição simples à direita.
Gerar legendas de imagem (v3.2)
(v4.0)
Detetar objetos A deteção de objetos é semelhante à marcação, mas a API retorna as coordenadas da caixa delimitadora para cada tag aplicada. Por exemplo, se uma imagem contiver um cão, gato e pessoa, a operação Detetar listará esses objetos juntamente com suas coordenadas na imagem. Você pode usar essa funcionalidade para processar outras relações entre os objetos em uma imagem. Ele também permite que você saiba quando há várias instâncias da mesma tag em uma imagem.

Foto de um escritório com um retângulo desenhado em torno de um laptop.
Detetar objetos (v3.2)
(v4.0)
Etiquetar elementos visuais Identifique e marque características visuais em uma imagem, a partir de um conjunto de milhares de objetos reconhecíveis, seres vivos, cenários e ações. Quando as tags são ambíguas ou não são de conhecimento comum, a resposta da API fornece dicas para esclarecer o contexto da tag. A etiquetagem não se limita ao motivo principal, como uma pessoa em primeiro plano, incluindo também o cenário (interior ou exterior), mobiliário, ferramentas, plantas, animais, acessórios, dispositivos, etc.

Foto de um skatista com tags listadas à direita.
Marcar recursos visuais (v3.2)
(v4.0)
Obter a área de interesse / colheita inteligente Analise o conteúdo de uma imagem para retornar as coordenadas da área de interesse que corresponda a uma proporção especificada. O Computer Vision retorna as coordenadas da caixa delimitadora da região, para que o aplicativo chamador possa modificar a imagem original conforme desejado.

O modelo de corte inteligente versão 4.0 é uma implementação mais avançada e funciona com uma gama mais ampla de imagens de entrada. Está disponível apenas em determinadas regiões geográficas. Consulte Disponibilidade da região.
Gerar uma miniatura (v3.2)
(Visualização v4.0)
Detetar marcas (somente v3.2) Identifique marcas comerciais em imagens ou vídeos a partir de uma base de dados de milhares de logótipos globais. Você pode usar esse recurso, por exemplo, para descobrir quais marcas são mais populares nas mídias sociais ou mais prevalentes no posicionamento de produtos de mídia. Detetar marcas
Categorizar uma imagem (somente v3.2) Identifique e categorize uma imagem inteira, com uma taxonomia de categorias com hierarquias hereditárias principais/subordinadas. As categorias podem ser utilizadas isoladamente ou com os nossos novos modelos de identificação.

Atualmente, o inglês é o único idioma suportado para identificar e categorizar imagens.
Categorizar uma imagem
Detetar rostos (somente v3.2) Detete rostos numa imagem e forneça informações sobre cada rosto detetado. A Azure Vision devolve as coordenadas, o retângulo, o género e a idade de cada rosto detetado.

Você também pode usar a API Face dedicada para esses fins. Ele fornece análises mais detalhadas, como identificação facial e deteção de poses.
Detetar rostos
Detetar tipos de imagem (somente v3.2) Detete características sobre uma imagem como, por exemplo, se uma imagem é um desenho de linha ou a probabilidade de uma imagem ser ClipArt. Detetar tipos de imagem
Detetar conteúdo específico do domínio (somente v3.2) Utilize modelos de domínio para detetar e identificar conteúdo específico de um domínio numa imagem, como celebridades e marcos de referência. Por exemplo, se uma imagem contém pessoas, a Azure Vision pode usar um modelo de domínio para celebridades para determinar se as pessoas detetadas na imagem são celebridades conhecidas. Detetar conteúdo específico de um domínio
Detetar o esquema de cores (somente v3.2) Analise a utilização de cor numa imagem. A Azure Vision pode determinar se uma imagem é a preto e branco ou a cores e, para imagens a cores, identificar as cores dominante e de destaque. Detetar o esquema de cores
Moderar conteúdo em imagens (apenas v3.2) Use o Azure Vision para detetar conteúdo adulto numa imagem e devolver pontuações de confiança para diferentes classificações. O limite para sinalizar conteúdo pode ser definido em uma escala deslizante para acomodar suas preferências. Detetar conteúdo adulto

Reconhecimento do produto (apenas visualização v4.0) (preterido)

Important

Este recurso foi desativado. Em 31 de março de 2025, a Classificação de Imagem Personalizada do Azure AI 4.0, a Deteção de Objetos Personalizados e a API de visualização de Reconhecimento de Produto foram desativadas. As chamadas de API para esses serviços falharão.

Transição para a Visão Personalizada da IA do Azure, que está disponível ao público em geral. O Custom Vision oferece funcionalidade semelhante a esses recursos de desativação.

As APIs de reconhecimento de produtos permitem analisar fotos de prateleiras em uma loja de varejo. Você pode detetar a presença ou ausência de produtos e obter suas coordenadas de caixa delimitadora. Use-o em combinação com a personalização do modelo para treinar um modelo para identificar seus produtos específicos. Também pode comparar os resultados do Reconhecimento de Produtos com o documento de planograma da sua loja.

Reconhecimento do Produto

Incorporações multimodais (apenas v4.0)

As APIs de incorporações multimodais permitem a vetorização de imagens e consultas de texto. Eles convertem imagens em coordenadas em um espaço vetorial multidimensional. Em seguida, você pode converter consultas de texto de entrada em vetores e fazer a correspondência de imagens com o texto com base na proximidade semântica. Esse recurso permite pesquisar um conjunto de imagens usando texto, sem a necessidade de usar tags de imagem ou outros metadados. A proximidade semântica produz frequentemente melhores resultados na pesquisa.

A 2024-02-01 API inclui um modelo multilingue que suporta a pesquisa de texto em 102 idiomas. O modelo original apenas em inglês ainda está disponível, mas não é possível combiná-lo com o novo modelo no mesmo índice de pesquisa. Se você vetorizou texto e imagens usando o modelo somente em inglês, esses vetores não são compatíveis com vetores de texto e imagem multilíngues.

Essas APIs estão disponíveis apenas em determinadas regiões geográficas. Consulte Disponibilidade da região.

Incorporações multimodais

Remoção em segundo plano (apenas visualização v4.0)

Important

Este recurso foi desativado. Em 31 de março de 2025, a API de Segmento do Azure AI Image Analysis 4.0 e o serviço de remoção de plano de fundo foram desativados. As chamadas de API para esses serviços falharão.

O recurso de segmentação do modelo de código aberto Florence 2 pode atender às suas necessidades. Ele retorna um mapa alfa marcando a diferença entre primeiro plano e plano de fundo, mas não edita a imagem original para remover o plano de fundo. Instale o modelo Florence 2 e experimente o seu recurso de segmentação a partir de regiões.

Para remoção completa do plano de fundo, considere um utilitário de terceiros como o BiRefNet.

Limites de serviço

Requisitos de entrada

A Análise de Imagem funciona em imagens que cumprem os requisitos seguintes:

  • A imagem deve estar nos formatos JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF ou MPO
  • O tamanho do ficheiro da imagem tem de ser inferior a 20 megabytes (MB)
  • As dimensões da imagem devem ser superiores a 50 x 50 pixels e inferiores a 16 000 x 16 000 pixels

Tip

Os requisitos de entrada para incorporações multimodais são diferentes e estão listados em Incorporações multimodais.

Suporte de idiomas

Diferentes recursos de análise de imagem estão disponíveis em diferentes idiomas. Consulte a página Suporte de idiomas .

Disponibilidade da região

Para usar as APIs de Análise de Imagens, deve criar o seu recurso Azure Vision no Foundry Tools numa região suportada. Os recursos de Análise de Imagem estão disponíveis nas seguintes regiões:

Region Análise de Imagens
(menos 4,0 legendas)
Análise de Imagens
(incluindo legendas 4.0)
Reconhecimento do Produto Incorporações multimodais
E.U.A. Leste
E.U.A. Oeste
E.U.A. Oeste 2
Centro de França
Europa do Norte
Europa Ocidental
Suécia Central
Norte da Suíça
Leste da Austrália
Sudeste Asiático
Ásia Leste
Coreia Central
Leste do Japão

Privacidade e segurança dos dados

Tal como em todas as Foundry Tools, os programadores que utilizam o serviço Azure Vision devem estar atentos às políticas da Microsoft relativamente aos dados dos clientes. Para saber mais, consulte a página Foundry Tools no Microsoft Trust Center.

Próximos passos

Comece a usar a Análise de Imagem seguindo o guia de início rápido em sua linguagem de desenvolvimento preferida e versão da API: