Compartilhar via


Implantar um agente para aplicativos de IA generativos

Implante seu agente de IA no Mosaic AI Model Serving usando a deploy() função da API python do Agent Framework. A implantação cria um ponto de extremidade de serviço com ferramentas internas de escalabilidade, monitoramento e colaboração.

Seu agente implantado se integra automaticamente aos recursos de avaliação e monitoramento do MLflow 3 , incluindo rastreamento em tempo real, o Aplicativo de Revisão para comentários de stakeholders e monitoramento.

Requirements

MLflow 3

  • Registre seu agente no Catálogo do Unity.
  • Instale o MLflow 3.1.3 ou superior para implantar agentes usando a deploy() API de databricks.agents.
  • Implantar agentes de fora de um notebook do Databricks requer databricks-agents o SDK versão 1.1.0 ou superior.

Instale os pré-requisitos:

# Install prerequisites
%pip install mlflow>=3.1.3 databricks-agents>=1.1.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

MLflow 2.x

Important

O Databricks recomenda usar o MLflow 3 para implantar agentes, pois algumas funcionalidades de log do MLflow 2 serão preteridas. Consulte ações de implantação detalhadas.

  • Registre seu agente no Catálogo do Unity.
  • Instale o MLflow 2.13.1 ou superior para implantar agentes usando a deploy() API de databricks.agents.
  • Implantar agentes de fora de um notebook do Databricks requer databricks-agents SDK versão 0.12.0 ou superior.

Instale os pré-requisitos:

# Install prerequisites
%pip install mlflow>=2.13.1 databricks-agents>=0.12.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

Implantar agentes usando deploy()

Implante seu agente em um endpoint de serviço de modelo:

from databricks import agents

deployment = agents.deploy(uc_model_name, uc_model_info.version)

# Retrieve the query endpoint URL for making API requests
deployment.query_endpoint

Quando você chama deploy(), o Databricks configura automaticamente a infraestrutura de produção e integra seu agente aos recursos de IA de geração do MLflow fazendo o seguinte:

Aviso

Se você estiver implantando um agente de um notebook armazenado em uma pasta Git do Databricks, o rastreamento em tempo real do MLflow 3 não funcionará por padrão.

Para habilitar o rastreamento em tempo real, defina o experimento como um experimento não associado ao Git usando mlflow.set_experiment() antes de executar agents.deploy().

A deploy() função executa as seguintes ações por padrão:

  • Cria um endpoint de serviço de modelo para hospedar seu agente com escalonamento automático e balanceamento de carga
  • Fornece autenticação segura para que o agente acesse recursos subjacentes
  • Habilita o monitoramento em tempo real por meio do rastreamento de experimentos do MLflow e da avaliação automatizada de qualidade no tráfego de produção
  • Configura a colaboração de stakeholders usando o app de revisão para coleta de feedback

Para obter mais informações, consulte Ações de implantação detalhadas.

Personalizar a implantação

Passe argumentos adicionais para deploy() personalizar a implantação. Por exemplo, você pode habilitar a escala para zero para pontos de extremidade ociosos passando scale_to_zero_enabled=True. Isso reduz os custos, mas aumenta o tempo para atender às consultas iniciais.

Para obter mais parâmetros, consulte a API python do Databricks Agents.

Recuperar e excluir implantações de agentes

Recuperar ou gerenciar implantações de agente existentes. Consulte a API python do Databricks Agents.

from databricks.agents import list_deployments, get_deployments, delete_deployment

# Print all current deployments
deployments = list_deployments()
print(deployments)

# Get the deployment for a specific agent model name and version
agent_model_name = ""    # Set to your Unity Catalog model name
agent_model_version = 1  # Set to your agent model version
deployment = get_deployments(model_name=agent_model_name, model_version=agent_model_version)

# List all deployments
all_deployments = list_deployments()

# Delete an agent deployment
delete_deployment(model_name=agent_model_name, model_version=agent_model_version)

Autenticação para recursos dependentes

Os agentes geralmente precisam se autenticar em outros recursos para concluir tarefas quando são implantados. Por exemplo, um agente pode precisar acessar um índice de Pesquisa de Vetor para consultar dados não estruturados.

Para obter informações sobre métodos de autenticação, incluindo quando usá-los e como configurá-los, consulte Autenticação para agentes de IA.

Ações de implantação detalhadas

A tabela a seguir lista ações de implantação detalhadas resultantes de uma deploy() chamada. As implantações podem levar até 15 minutos para terminar.

MLflow 3

deploy() ação Description
Criar um endpoint de serving de modelo Cria um endpoint de API REST escalável que disponibiliza seu agente para aplicativos voltados para o usuário com balanceamento de carga automático.
Provisionar autenticação segura Fornece automaticamente credenciais de curta duração que permitem ao agente acessar recursos gerenciados pelo Databricks (índices de Pesquisa vetor, funções do Catálogo do Unity etc.) com permissões mínimas necessárias.
O Databricks verifica se o proprietário do ponto de extremidade tem permissões adequadas antes de emitir credenciais, impedindo o acesso não autorizado.
Para recursos que não são do Databricks, passe variáveis de ambiente com segredos para deploy(). Confira Configurar acesso a recursos de pontos de extremidade do serviço de modelo.
Habilitar Aplicativo de Revisão Fornece uma interface da Web em que os stakeholders podem interagir com seu agente e fornecer comentários. Consulte Coletar comentários e expectativas rotulando rastreamentos existentes.
Habilitar o rastreamento em tempo real Registra todas as interações do agente em um experimento do MLflow em tempo real, fornecendo visibilidade imediata para monitoramento e depuração.
  • Os rastreamentos do seu ponto de extremidade gravam no experimento do MLflow atualmente ativo (definido com mlflow.set_experiment())
  • Todos os agentes no ponto de extremidade compartilham o mesmo experimento para armazenamento de traços.
  • Rastreamentos também são gravados em tabelas de inferência para armazenamento de longo prazo
Habilitar o monitoramento de produção (beta) Configura a avaliação automatizada de qualidade que executa mecanismos de pontuação no tráfego de dados de produção. Consulte o monitoramento de produção.
Habilitar tabelas de inferência Cria tabelas que registram entradas e respostas de solicitações para auditoria e análise.
Registrar solicitações da API REST e examinar comentários do aplicativo Registra solicitações de API e comentários em uma tabela de inferência.
Aviso: O modelo de comentários foi preterido e será removido em uma versão futura. Atualize para o MLflow 3 e use a log_feedback API. Consulte Coletar comentários do usuário.
  • Crie um modelo de comentários para aceitar e registrar comentários no Aplicativo de Revisão.
  • Esse modelo é servido no mesmo ponto de extremidade de atendimento do modelo de CPU que seu agente implementado.

MLflow 2

deploy() ação Description
Criar um endpoint de serving de modelo Cria um endpoint de API REST escalável que disponibiliza seu agente para aplicativos voltados para o usuário com balanceamento de carga automático.
Provisionar autenticação segura Fornece automaticamente credenciais de curta duração que permitem ao agente acessar recursos gerenciados pelo Databricks (índices de Pesquisa vetor, funções do Catálogo do Unity etc.) com permissões mínimas necessárias.
O Databricks verifica se o proprietário do ponto de extremidade tem permissões adequadas antes de emitir credenciais, impedindo o acesso não autorizado.
Para recursos que não são do Databricks, passe variáveis de ambiente com segredos para deploy(). Confira Configurar acesso a recursos de pontos de extremidade do serviço de modelo.
Habilitar Aplicativo de Revisão Fornece uma interface da Web em que os stakeholders podem interagir com seu agente e fornecer comentários. Consulte Coletar comentários e expectativas rotulando rastreamentos existentes.
Habilitar tabelas de inferência Cria tabelas que registram entradas e respostas de solicitações para auditoria e análise.
Aviso: Os logs de solicitação e os logs de avaliação foram preteridos e serão removidos em uma versão futura. Consulte os logs de solicitação e a substituição de logs de avaliação para obter diretrizes de migração.
Registrar solicitações da API REST e Review App feedback (obsoleto) Registra solicitações de API e comentários em uma tabela de inferência.
Aviso: O modelo de comentários foi preterido e será removido em uma versão futura. Atualize para o MLflow 3 e use a log_feedback API. Consulte Coletar comentários do usuário.
  • Crie um modelo de comentários para aceitar e registrar comentários no Aplicativo de Revisão.
  • Esse modelo é servido no mesmo ponto de extremidade de atendimento do modelo de CPU que seu agente implementado.

Próximas etapas