Usar o Agent Bricks: extração de informações

Important

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página descreve como criar um agente de IA generativo para extração de informações usando o Agent Bricks: Information Extraction.

O Agent Bricks fornece uma abordagem simples para criar sistemas de agente de IA de alta qualidade específicos ao domínio para casos comuns de uso de IA.

O que é o Agent Bricks: Extração de Informações?

O Agent Bricks dá suporte à extração de informações e simplifica o processo de transformação de um grande volume de documentos de texto sem rótulo em uma tabela estruturada com informações extraídas para cada documento.

Exemplos de extração de informações incluem:

Extrair preços e informações da concessão de contratos.
Organizando dados de anotações do cliente.
Obter detalhes importantes dos artigos de notícias.

Agent Bricks: a Extração de Informações aproveita os recursos de avaliação automatizados, incluindo MLflow e Avaliação de Agente, para habilitar a avaliação rápida da compensação entre custo e qualidade para sua tarefa de extração específica. Essa avaliação permite que você tome decisões informadas sobre o equilíbrio entre precisão e investimento em recursos.

O Agent Bricks usa o armazenamento padrão para armazenar transformações de dados temporárias, pontos de verificação de modelo e metadados internos que alimentam cada agente. Na exclusão do agente, todos os dados associados ao agente são removidos do armazenamento padrão.

Requirements

Um workspace que inclui o seguinte:
- Prévia do Agent Bricks do Mosaic AI (Beta) habilitado. Consulte Gerenciar visualizações do Azure Databricks.
- Computação sem servidor habilitada. Consulte os requisitos de computação sem servidor.
- Unity Catalog habilitado. Consulte Habilitar um espaço de trabalho no Catálogo do Unity.
- Um workspace em uma das regiões com suporte: centralus, eastus, eastus2, northcentralus, southcentralus. westus ou westus2.
- Acesso aos modelos fundamentais no Catálogo do Unity por meio do esquema system.ai.
- Acesso a uma política de orçamento sem servidor com um orçamento diferente de zero.
Capacidade de usar a ai_query função SQL.
Arquivos dos quais você deseja extrair dados. Os arquivos devem estar em um volume ou tabela do Catálogo do Unity.
- Se você quiser usar PDFs, converta-os em uma tabela do Catálogo do Unity primeiro. Consulte Usar PDFs no Agent Bricks.
- Para criar seu agente, você precisa de pelo menos 1 documento sem rótulo no volume do Catálogo do Unity ou 1 linha em sua tabela.

Criar um agente de extração de informações

Vá para o ícone de agentes. Agentes no painel de navegação à esquerda da sua área de trabalho. No bloco Extração de Informações , clique em Compilar.

Etapa 1: Configurar seu agente

Configure seu agente:

No campo Nome , insira um nome para o agente.
Selecione o tipo de dados que você deseja fornecer. Você pode escolher conjunto de dados não rotulado ou conjunto de dados rotulado.
Selecione o conjunto de dados a ser fornecido.

Conjunto de dados sem rótulo

Se você selecionar conjunto de dados não rotulado:
1. No campo local do conjunto de dados , selecione a pasta ou a tabela que você deseja usar no volume do Catálogo do Unity. Se você selecionar uma pasta, a pasta deverá conter documentos em um formato de documento com suporte.
  
  Veja a seguir um volume de exemplo:
  
  /Volumes/main/info-extraction/bbc_articles/
2. Se você estiver fornecendo uma tabela, selecione a coluna que contém seus dados de texto na lista suspensa. A coluna da tabela deve conter dados em um formato de dados com suporte.
  
  Se você quiser usar PDFs, converta-os em uma tabela do Catálogo do Unity primeiro. Consulte Usar PDFs no Agent Bricks.
3. O Agent Bricks infere e gera automaticamente uma saída JSON de exemplo contendo dados extraídos do conjunto de dados no campo de saída JSON de exemplo. Você pode aceitar a saída de exemplo, editá-la ou substituí-la por um exemplo da saída JSON desejada. O agente retorna informações extraídas usando esse formato.
Conjunto de dados rotulado

Se você selecionar o conjunto de dados rotulado:
1. No campo Conjunto de dados de verdades de base, selecione a tabela Unity Catalog que contém seus dados de referência.
2. No campo Coluna de entrada , selecione a coluna que contém o texto que você deseja que o agente processe. Os dados nesta coluna devem estar em str formato.
3. No campo Coluna de resposta de verdade de referência, selecione a coluna que contém as respostas ideais esperadas. Os dados nesta coluna devem ser uma cadeia de caracteres JSON. Cada linha nesta coluna deve seguir o mesmo formato JSON. As linhas que contêm chaves adicionais ou ausentes não são aceitáveis.
4. No campo Saída JSON de Exemplo, o Agent Bricks gera automaticamente uma saída JSON de exemplo usando a primeira linha de dados da coluna de resposta de referência. Verifique se essa saída JSON corresponde ao formato esperado.

Verifique se o campo de saída JSON de exemplo corresponde ao formato de resposta desejado. Edite conforme necessário.

Por exemplo, a seguinte saída JSON de exemplo pode ser usada para extrair informações de um conjunto de artigos de notícias:

{
  "title": "Economy Slides to Recession",
  "category": "Politics",
  "paragraphs": [
    {
      "summary": "GDP fell by 0.1% in the last three months of 2004.",
      "word_count": 38
    },
    {
      "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
      "word_count": 42
    }
  ],
  "tags": ["Recession", "Economy", "Consumer Spending"],
  "estimate_time_to_read_min": 1,
  "published_date": "2005-01-15",
  "needs_review": false
}

Na opção Modelo, selecione o melhor modelo para o agente de extração de informações:
- Otimizar para Escala (padrão): escolha esta opção se você estiver processando grandes volumes de dados ou preferir um agente econômico. Esse modelo foi projetado para alta taxa de transferência e tempo de reviravolta mais rápido e é adequado para a maioria das tarefas de extração de informações.
- Otimizar para Complexidade: escolha essa opção se precisar de um raciocínio complexo e priorize a precisão em relação à velocidade e ao custo. Esse modelo oferece recursos de raciocínio mais altos para documentos mais longos (como arquivos financeiros) e pode lidar com extrações mais complexas (como extrair mais de 40 campos de esquema).
Clique em Criar agente.

Formatos de documento com suporte

A tabela a seguir mostra os tipos de arquivo de documento com suporte para seus documentos de origem se você fornecer um volume do Catálogo do Unity.

Arquivos de código	Arquivos de documento	Arquivos de log
`.c` `.cc` `.cpp` `.cs` `.css` `.cxx` `.go` `.h` `.hpp` `.htm` `.html` `.java` `.js` `.json` `.jsonl` `.jsx` `.lua` `.md` `.php` `.pl` `.py` `.rb` `.sh` `.swift` `.tex` `.ts` `.tsx`	`.md` `.rst` `.tex` `.txt` `.xml` `.xsd` `.xsl`	`.diff` `.err` `.log` `.out` `.patch`

Formatos de dados com suporte

Agent Bricks: a Extração de Informações dá suporte aos seguintes tipos de dados e esquemas para seus documentos de origem se você fornecer uma tabela do Catálogo do Unity. O Agent Bricks também pode extrair esses tipos de dados de cada documento.

str
int
float
boolean
enum (usado para tarefas de classificação em que o agente só deve selecionar entre categorias predefinidas)
Object
matrizes

enum (adequado para tarefas de classificação em que queremos que o agente produza somente de um conjunto de categorias predefinidas) a matriz (no lugar de "campos aninhados personalizados")

Etapa 2: Melhorar seu agente

Na guia Compilar , examine as saídas de exemplo para ajudá-lo a refinar sua definição de esquema e adicionar instruções para obter melhores resultados.

À esquerda, examine as respostas de exemplo e dê feedback para aperfeiçoar seu agente. Esses exemplos são baseados na configuração atual do agente.
1. Clique em uma linha para examinar a entrada e a resposta completas.
2. Na parte inferior, ao lado de Esta resposta está correta?, forneça feedback selecionando ou . Para corrigir o feedabck, forneça detalhes adicionais sobre como o agente deve alterar sua resposta e clique no Salve.
3. Depois de concluir a revisão de todas as respostas, clique no Sim, atualize o agente. Ou você pode clicar em Salvar comentários e atualizar depois de examinar pelo menos três respostas.
À direita, em campos de saída, refina as descrições dos campos de esquema de extração. Essas descrições são o que o agente depende para entender o que você quer extrair. Use as respostas de exemplo à esquerda para ajudá-lo a refinar a definição de esquema.
1. Para cada campo, examine e edite a definição de esquema conforme necessário. Use as respostas de exemplo à esquerda para ajudá-lo a refinar essas descrições.
2. Para editar o nome e o tipo do campo, clique no Editar campo.
3. Para adicionar um novo campo, clique no Adicione um novo campo. Insira o nome, o tipo e a descrição e clique em Confirmar.
4. Para remover um campo, clique no Remover campo.
5. Clique em Salvar e atualizar para atualizar a configuração do agente.
(Opcional) À direita, em Instruções, insira instruções globais para o agente. Essas instruções se aplicam a todos os elementos extraídos. Clique em Salvar e atualizar para aplicar as instruções.
Novas respostas de exemplo são geradas no lado esquerdo. Examine essas respostas atualizadas e continue a refinar a configuração do agente até que as respostas sejam satisfatórias.

Etapa 3: Usar seu agente

Você pode usar seu agente em fluxos de trabalho no Databricks. Por padrão, os endpoints do Agent Bricks são dimensionados para zero após três dias de inatividade, portanto, você só é cobrado pelo tempo de operação.

Para começar a usar seu agente, clique em Usar. Você pode optar por usar seu agente de várias maneiras:

Extraia dados para todos os documentos: clique em Iniciar extração para abrir o editor do SQL e use ai_query para enviar solicitações ao seu novo agente de extração de informações.
Criar pipeline de ETL: clique em Criar pipeline para implantar um pipeline que é executado em intervalos agendados para usar seu agente em novos dados. Consulte Lakeflow Spark Declarative Pipelines para obter mais informações sobre pipelines.
Teste seu agente: clique em Abrir no Playground para experimentar seu Agente em um ambiente de teste para ver como ele funciona. Consulte o Chat com LLMs e protótipos de aplicativos de IA generativos usando o AI Playground para saber mais sobre o AI Playground.

(Opcional) Etapa 4: Avaliar seu agente

Para garantir que você criou um agente de alta qualidade, execute uma avaliação e examine o relatório de qualidade resultante.

Alterne para a guia Qualidade .
Clique Execute a avaliação.
No painel Nova Avaliação que desliza para fora, configure a avaliação:
1. Selecione o nome da execução de avaliação. Você pode optar por usar um nome gerado ou fornecer um nome personalizado.
2. Selecione o conjunto de dados de avaliação. Você pode optar por usar o mesmo conjunto de dados de origem usado para criar seu agente ou fornecer um conjunto de dados de avaliação personalizado usando dados rotulados ou não rotulados.
Clique em Iniciar avaliação.
Após a conclusão da execução da avaliação, examine o relatório de qualidade:
- Uma exibição resumo é mostrada por padrão. Examine o relatório geral de qualidade, custo, taxa de transferência e resumo das métricas de avaliação. Clique no Ao lado do campo de esquema para ver como esse campo é avaliado.
- Alterne para o modo de exibição Detalhado para obter detalhes adicionais. Essa exibição mostra cada solicitação e a pontuação de avaliação para cada métrica. Clique em uma solicitação para ver detalhes adicionais, como as entradas, saídas, avaliações, rastreamentos e prompts associados. Você também pode editar as avaliações da solicitação e fornecer comentários adicionais.

Consultar o endpoint do agente

Na página do agente, clique no Veja o status do agente no canto superior direito para obter o endpoint do agente implantado e ver os detalhes do endpoint.

Há várias maneiras de consultar o endpoint do agente criado. Use os exemplos de código fornecidos no AI Playground como ponto de partida:

Na página do agente, clique em Usar.
Clique em "Abrir no playground".
No Playground, clique em Obter código.
Escolha como você deseja usar o ponto de extremidade:
- Selecione Aplicar em dados para criar uma consulta SQL que aplique o agente a uma coluna de tabela específica.
- Selecione a API Curl para obter um exemplo de código para consultar o ponto de extremidade usando curl.
- Selecione API do Python para um exemplo de código de como interagir com o endpoint usando Python.

Gerenciar permissões

Por padrão, somente os autores e administradores do workspace do Agent Bricks têm permissões para o agente. Para permitir que outros usuários editem ou consultem seu agente, você precisa conceder permissão explicitamente a eles.

Para gerenciar permissões em seu agente:

Abra seu agente no Agent Bricks.
Na parte superior, clique no Menu kebab.
Clique em Gerenciar permissões.
Na janela Configurações de Permissão , selecione o usuário, o grupo ou a entidade de serviço.
Selecione a permissão para conceder:
- Pode gerenciar: permite o gerenciamento do Agent Bricks, incluindo permissões de configuração, edição da configuração do agente e melhoria de sua qualidade.
- Pode consultar: permite consultar o ponto de extremidade do Agent Bricks no AI Playground e por meio da API. Os usuários com apenas essa permissão não podem exibir ou editar o agente no Agent Bricks.
Clique em Adicionar.
Clique em Salvar.

Observação

Para pontos de extremidade de agente criados antes de 16 de setembro de 2025, você pode conceder permissões Pode Consultar para o ponto de extremidade na página Pontos de Extremidade de Serviço.

Usar PDFs no Agent Bricks

Ainda não há suporte para PDFs nativamente no Agent Bricks: Extração de Informações e LLM Personalizada. No entanto, você pode usar o fluxo de trabalho da interface do usuário do Agent Brick para converter uma pasta de arquivos PDF em markdown e, em seguida, usar a tabela do Catálogo do Unity resultante como entrada ao criar seu agente. Esse fluxo de trabalho usa ai_parse_document para a conversão. Siga estas etapas:

Clique em Agentes no painel de navegação esquerdo para abrir o Agent Bricks no Databricks.
Nos casos de uso da Extração de Informações ou da LLM Personalizada, clique em Usar PDFs.
No painel lateral que é aberto, insira os seguintes campos para criar um novo fluxo de trabalho para converter seus PDFs:
1. Selecione a pasta com PDFs ou imagens: selecione a pasta Catálogo do Unity que contém os PDFs que você deseja usar.
2. Selecione a tabela de destino: selecione o esquema de destino para a tabela markdown convertida e, opcionalmente, ajuste o nome da tabela no campo abaixo.
3. Selecione o SQL Warehouse ativo: selecione o SQL Warehouse para executar o fluxo de trabalho.
Clique em Iniciar importação.
Você será redirecionado para a guia Todos os fluxos de trabalho , que lista todos os fluxos de trabalho em PDF. Use essa guia para monitorar o status de seus trabalhos.

Se o fluxo de trabalho falhar, clique no nome do trabalho para abri-lo e exibir mensagens de erro para ajudá-lo a depurar.
Quando o fluxo de trabalho for concluído com êxito, clique no nome do trabalho para abrir a tabela no Gerenciador de Catálogos para explorar e entender as colunas.
Use a tabela catálogo do Unity como dados de entrada no Agent Bricks ao configurar seu agente.

Limitations

Os agentes de Extração de Informações têm um comprimento máximo de contexto de 128 mil tokens.
Não há suporte para workspaces com segurança e conformidade avançadas habilitadas.
Não há suporte para tipos de esquema de união.

Comentários

Esta página foi útil?

Last updated on 2025-12-22