Creación de una solución de minería de conocimiento con Azure AI Search

Completado

Fundamentalmente, Azure AI Search es un servicio en la nube para indexar y buscar datos. Sin embargo, su uso de aptitudes de inteligencia artificial para extraer información de varios formatos de datos y la capacidad de integrarla con otros servicios de inteligencia artificial, como Azure Vision y Azure Document Intelligence, lo convierten en una plataforma eficaz para crear soluciones de minería de conocimiento y administración de activos digitales.

Indexadores, índices y aptitudes

En el centro de una solución de Azure AI Search es un indexador, que define un proceso repetible para:

  1. Ingerir datos de un origen, como un contenedor de Azure Storage de documentos o una base de datos.

  2. Descifre documentos para extraer su contenido; por ejemplo, recuperar los datos de texto e imagen en un documento PDF.

  3. Aplique una secuencia de tareas para recuperar información de los datos y generar una jerarquía de campos para el índice. Algunos campos son atributos principales de los datos de origen (por ejemplo, nombres de archivo de documento y fechas guardadas por última vez), mientras que otros se generan mediante aptitudes de inteligencia artificial. Por ejemplo:

    • Uso de los servicios de Azure Vision para generar etiquetas y subtítulos para imágenes.
    • Usar los servicios de Lenguaje de Azure para derivar campos de opinión o entidades nombradas.
    • Uso de Azure Document Intelligence para extraer valores de campo de formularios.
  4. Conservar los campos extraídos como un índice.

    Diagrama de un indexador que usa aptitudes de inteligencia artificial para extraer campos de documentos de origen y crear un índice.

El índice resultante se puede usar para permitir que los usuarios busquen información en los campos extraídos en función de las palabras clave y los criterios de filtrado.

Conservar los datos extraídos en un almacén de conocimiento

Además de crear un índice que se puede buscar, Azure AI Search puede conservar los recursos de datos extraídos en un almacén de conocimiento de Azure Storage.

El indexador puede guardar los siguientes tipos de recursos en un almacén de conocimiento:

  • Tablas de valores de campo.

  • Imágenes extraídas de documentos.

  • Documentos JSON que representan estructuras de datos; que pueden ser jerarquías complejas de campos y valores.

    Diagrama de un indexador que almacena tablas, imágenes y documentos en un almacén de conocimiento.