Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
La inserción multimodal es el proceso de generar una representación vectorial de una imagen que captura sus funciones y características. Estos vectores codifican el contenido y el contexto de una imagen de forma que sea compatible con la búsqueda de texto en el mismo espacio vectorial.
Los sistemas de recuperación de imágenes han usado tradicionalmente características extraídas de las imágenes, como etiquetas de contenido, etiquetas y descriptores de imagen, para comparar imágenes y clasificarlas por similitud. Sin embargo, la búsqueda de similitud vectorial ofrece una serie de ventajas sobre la búsqueda tradicional basada en palabras clave y se está convirtiendo en un componente fundamental en los servicios de búsqueda de contenido populares.
Diferencias entre la búsqueda vectorial y la búsqueda de palabras clave
La búsqueda de palabras clave es el método más básico y tradicional de recuperación de información. En ese enfoque, el motor de búsqueda busca la coincidencia exacta de las palabras clave o frases introducidas por el usuario en la consulta de búsqueda y la compara con las etiquetas y marcas proporcionadas para las imágenes. A continuación, el motor de búsqueda devuelve imágenes que contienen esas palabras clave exactas como etiquetas de contenido y etiquetas de imagen. La búsqueda de palabras clave se basa en gran medida en la capacidad del usuario de usar términos de búsqueda relevantes y específicos.
La búsqueda por vectores busca grandes colecciones de vectores en un espacio de alta dimensión para encontrar vectores que sean similares a una consulta determinada. La búsqueda vectorial busca similitudes semánticas mediante la captura del contexto y el significado de la consulta de búsqueda. Este enfoque suele ser más eficaz que las técnicas tradicionales de recuperación de imágenes, ya que puede reducir el espacio de búsqueda y mejorar la precisión de los resultados.
Aplicaciones empresariales
La inserción multimodal tiene una variedad de aplicaciones en distintos campos, entre los que se incluyen:
- Administración de activos digitales: la inserción multimodal se puede usar para administrar grandes colecciones de imágenes digitales; por ejemplo, en museos, archivos o galerías en línea. Los usuarios pueden buscar imágenes basadas en características visuales y recuperar las imágenes que coinciden con sus criterios.
- Seguridad y vigilancia: la vectorización se puede usar en sistemas de seguridad y vigilancia para buscar imágenes basadas en características o patrones específicos, como en, personas y seguimiento de objetos o detección de amenazas.
- Recuperación de imágenes forenses: la vectorización se puede usar en investigaciones forenses para buscar imágenes basadas en su contenido visual o metadatos, como en casos de ciberdelincuencia.
- Comercio electrónico: la vectorización se puede usar en aplicaciones de compras en línea para buscar productos similares en función de sus características o descripciones o proporcionar recomendaciones basadas en compras anteriores.
- Moda y diseño: la vectorización se puede usar en los campos de moda y diseño para buscar imágenes en función de sus características visuales, como el color, el patrón o la textura. Esto puede ayudar a los diseñadores o minoristas a identificar productos o tendencias similares.
Precaución
La incrustación multimodal no está diseñada para analizar imágenes médicas para identificar características diagnósticas o patrones de enfermedad. Por favor, no use la incrustación multimodal para fines médicos.
¿Qué son las incrustaciones vectoriales?
Las incrustaciones vectoriales son una forma de representar contenido (texto o imágenes) como vectores de números reales en un espacio dimensional alto. Las incrustaciones vectoriales a menudo se aprenden de grandes cantidades de datos textuales y visuales mediante algoritmos de aprendizaje automático, como redes neuronales.
Cada dimensión del vector corresponde a una característica o atributo diferentes del contenido, como su significado semántico, el rol sintáctico o el contexto en el que suele aparecer. En Azure Vision en Foundry Tools, las incrustaciones de vectores de imagen y texto tienen 1024 dimensiones.
Importante
Las incrustaciones vectoriales solo se pueden comparar y hacer coincidir si proceden del mismo tipo de modelo. Las imágenes vectorizadas por un modelo no se podrán buscar a través de otro modelo. La API de análisis de imágenes más reciente ofrece dos modelos: la versión 2023-04-15, que admite la búsqueda de texto en muchos idiomas, y el modelo 2022-04-11 heredado, que solo admite la búsqueda en inglés.
Proceso de recuperación de imágenes
A continuación, se muestran los pasos principales del proceso de recuperación de imágenes mediante inserciones multimodales.
- Vectorizar imágenes y texto: las API de inserciones multimodales, VectorizeImage y VectorizeText, se pueden usar para extraer vectores de características de una imagen o texto, respectivamente. Las API devuelven un único vector de característica que representa toda la entrada.
Nota:
La incrustación multimodal no realiza ningún procesamiento biométrico de caras humanas. Para la detección e identificación de caras, consulte el servicio Face de Azure AI.
- Medir similitud: los sistemas de búsqueda vectorial suelen usar métricas de distancia, como la distancia coseno o la distancia euclidiana, para comparar vectores y clasificarlos por similitud. La demostración de Vision Studio usa la distancia de coseno para medir la similitud.
- Recuperar imágenes: use los vectores superiores N similares a la consulta de búsqueda y recupere las imágenes correspondientes a esos vectores de la biblioteca de fotos para proporcionar como resultado final.
Puntuación de relevancia
El servicio de recuperación de imágenes devuelve un campo denominado "relevancia". El término "relevancia" denota una medida de similitud entre una consulta e incrustaciones de imágenes. La puntuación de relevancia se compone de dos partes:
- Similitud de coseno (que se encuentra en el intervalo de [0,1]) entre las incrustaciones de consulta e imagen.
- Puntuación de metadatos, que refleja la similitud entre la consulta y los metadatos asociados a la imagen.
Importante
La puntuación de relevancia es una buena medida para clasificar los resultados, como las imágenes con respecto a una sola consulta. Sin embargo, la puntuación de relevancia no se puede comparar con precisión entre las consultas. Por lo tanto, no es posible asignar fácilmente la puntuación de relevancia a un nivel de confianza. Tampoco es posible crear trivialmente un algoritmo de umbral para eliminar los resultados irrelevantes basándose únicamente en la puntuación de relevancia.
Requisitos de entrada
Entrada de imagen
- El tamaño de archivo de la imagen debe ser inferior a 20 megabytes (MB).
- Las dimensiones de la imagen deben ser mayores que 10 x 10 píxeles y menores que 16 000 x 16 000 píxeles.
Entrada de texto
- La cadena de texto debe estar entre (inclusive) 1 y 70 palabras.
Paso siguiente
Habilite las inserciones multimodales para el servicio de búsqueda y siga los pasos para generar incrustaciones vectoriales de texto e imágenes.