Criar uma solução de mineração de conhecimento com o Azure AI Search

Concluído

Fundamentalmente, o Azure AI Search é um serviço de nuvem para indexação e pesquisa de dados. No entanto, a utilização de competências em IA para extrair insights de múltiplos formatos de dados e a capacidade de os integrar com outros serviços de IA, incluindo Azure Vision e Azure Document Intelligence, tornam-na uma plataforma poderosa para construir soluções de gestão de ativos digitais e mineração de conhecimento.

Indexadores, índices e habilidades

No centro de uma solução de Pesquisa de IA do Azure está um indexador, que define um processo repetível para:

  1. Ingerir dados de uma fonte, como um contêiner de documentos do Armazenamento do Azure ou um banco de dados.

  2. Quebrar documentos para extrair seu conteúdo - por exemplo, recuperar os dados de texto e imagem em um documento PDF.

  3. Aplique uma sequência de tarefas para recuperar informações dos dados e gerar uma hierarquia de campos para o índice. Alguns campos são atributos principais dos dados de origem (por exemplo, nomes de arquivos de documentos e datas salvas pela última vez), enquanto outros são gerados usando habilidades de IA. Por exemplo:

    • Uso dos serviços Azure Vision para gerar etiquetas e legendas para imagens.
    • Utilização dos serviços Azure Language para extrair campos de sentimento ou entidades nomeadas.
    • Usar Azure Document Intelligence para extrair valores de campos de formulários.
  4. Persistir os campos extraídos como um índice.

    Diagrama de um indexador usando habilidades de IA para extrair campos de documentos de origem e criar um índice.

O índice resultante pode ser usado para permitir que os usuários pesquisem informações nos campos extraídos com base em palavras-chave e critérios de filtragem.

Persistência de dados extraídos em uma base de conhecimento

Além de criar um índice pesquisável, o Azure AI Search pode manter os ativos de dados extraídos em um repositório de conhecimento no Armazenamento do Azure.

O indexador pode salvar os seguintes tipos de ativos em um repositório de conhecimento:

  • Tabelas de valores de campo.

  • Imagens extraídas de documentos.

  • Documentos JSON que representam estruturas de dados; que podem ser hierarquias complexas de campos e valores.

    Diagrama de um indexador armazenando tabelas, imagens e documentos em um repositório de conhecimento.