Partilhar via


Implantar um agente para aplicativos generativos de IA

Implante seu agente de IA no Mosaic AI Model Serving usando a deploy() função da API Python do Agent Framework. A implantação cria um ponto de extremidade de serviço ativo com ferramentas integradas de escalabilidade, monitorização e colaboração.

Seu agente implantado integra-se automaticamente aos recursos de avaliação e monitoramento do MLflow 3 , incluindo rastreamento em tempo real, o aplicativo de revisão para feedback das partes interessadas e monitoramento.

Requirements

MLflow 3

  • Registre seu agente no Catálogo Unity.
  • Instale o MLflow 3.1.3 ou superior para implantar agentes usando a deploy() API do databricks.agents.
  • A implementação de agentes a partir de fora de um Databricks notebook requer databricks-agents SDK versão 1.1.0 ou superior.

Instale os pré-requisitos:

# Install prerequisites
%pip install mlflow>=3.1.3 databricks-agents>=1.1.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

MLflow 2.x

Important

O Databricks recomenda o uso do MLflow 3 para implantar agentes, pois algumas funcionalidades de log do MLflow 2 serão preteridas. Consulte ações de implantação detalhadas.

  • Registre seu agente no Catálogo Unity.
  • Instale o MLflow 2.13.1 ou superior para implantar agentes usando a deploy() API do databricks.agents.
  • A implementação de agentes fora de um notebook Databricks requer a versão databricks-agents SDK 0.12.0 ou superior.

Instale os pré-requisitos:

# Install prerequisites
%pip install mlflow>=2.13.1 databricks-agents>=0.12.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

Implantar agentes usando deploy()

Implante seu agente em um ponto de extremidade de serviço de modelo:

from databricks import agents

deployment = agents.deploy(uc_model_name, uc_model_info.version)

# Retrieve the query endpoint URL for making API requests
deployment.query_endpoint

Quando você chama deploy(), o Databricks configura automaticamente a infraestrutura de produção e integra seu agente com os recursos de IA da geração MLflow fazendo o seguinte:

Advertência

Se você estiver implantando um agente a partir de um bloco de anotações armazenado em uma pasta Databricks Git, o rastreamento em tempo real do MLflow 3 não funcionará por padrão.

Para habilitar o rastreamento em tempo real, defina o experimento como um experimento não associado ao Git usando mlflow.set_experiment() antes de executar agents.deploy()o .

A deploy() função executa as seguintes ações por padrão:

  • Cria um modelo de ponto de extremidade de serviço para hospedar seu agente com dimensionamento automático e balanceamento de carga
  • Provisiona autenticação segura para que seu agente acesse recursos subjacentes
  • Permite o monitoramento em tempo real por meio do rastreamento de experimentos MLflow e da avaliação automatizada da qualidade do tráfego de produção
  • Configura a colaboração das partes interessadas usando o aplicativo Avaliações para coleta de comentários

Para obter mais informações, consulte Ações de implantação detalhadas.

Personalizar a implantação

Passe argumentos adicionais para deploy() e personalize a implantação. Por exemplo, você pode habilitar o redimensionamento para zero para endpoints ociosos passando scale_to_zero_enabled=True. Isso reduz os custos, mas aumenta o tempo para atender às consultas iniciais.

Para obter mais parâmetros, consulte Databricks Agents Python API.

Recuperar e eliminar implantações de agente

Recupere ou gerencie implantações de agentes existentes. Consulte Databricks Agents Python API.

from databricks.agents import list_deployments, get_deployments, delete_deployment

# Print all current deployments
deployments = list_deployments()
print(deployments)

# Get the deployment for a specific agent model name and version
agent_model_name = ""    # Set to your Unity Catalog model name
agent_model_version = 1  # Set to your agent model version
deployment = get_deployments(model_name=agent_model_name, model_version=agent_model_version)

# List all deployments
all_deployments = list_deployments()

# Delete an agent deployment
delete_deployment(model_name=agent_model_name, model_version=agent_model_version)

Autenticação para recursos dependentes

Os agentes geralmente precisam se autenticar em outros recursos para concluir tarefas quando elas são implantadas. Por exemplo, um agente pode precisar acessar um índice de Pesquisa Vetorial para consultar dados não estruturados.

Para obter informações sobre métodos de autenticação, incluindo quando usá-los e como configurá-los, consulte Autenticação para agentes de IA.

Ações de implantação detalhadas

A tabela a seguir lista ações detalhadas de implantação que resultam de uma deploy() invocação. As implantações podem levar até 15 minutos para serem concluídas.

MLflow 3

deploy() ação Description
Criar endpoint de serviço de modelo Cria um endpoint de API REST escalável que serve o seu agente para aplicações voltadas para o utilizador com balanceamento automático de carga.
Provisionar autenticação segura Fornece automaticamente credenciais de curta duração que permitem que seu agente acesse recursos gerenciados pelo Databricks (índices de Pesquisa Vetorial, funções do Catálogo Unity, etc.) com permissões mínimas necessárias.
O Databricks verifica se o proprietário do endpoint tem as permissões adequadas antes de emitir credenciais, impedindo o acesso não autorizado.
Para recursos que não sejam Databricks, passe variáveis de ambiente com segredos para deploy(). Consulte Configurar o acesso a recursos a partir dos endpoints de fornecimento de modelos.
Ativar aplicação de revisão Fornece uma interface web onde as partes interessadas podem interagir com seu agente e fornecer feedback. Consulte Recolha de comentários e expectativas através da rotulagem de traços existentes.
Habilite o rastreamento em tempo real Registra todas as interações do agente em um experimento MLflow em tempo real, fornecendo visibilidade imediata para monitoramento e depuração.
  • Traços do seu endpoint são escritos no experimento MLflow atualmente ativo (definido com mlflow.set_experiment())
  • Todos os agentes compartilham o mesmo experimento de armazenamento de traços no endpoint.
  • Os traços também são gravados em tabelas de inferência para armazenamento a longo prazo
Habilitar o monitoramento de produção (beta) Configura a avaliação de qualidade automatizada que executa pontuadores no tráfego de produção. Veja o monitoramento da produção.
Habilitar tabelas de inferência Cria tabelas que registram entradas e respostas de solicitações para auditoria e análise.
Registrar solicitações de API REST e revisar comentários sobre aplicativos Registra solicitações de API e comentários em uma tabela de inferência.
Atenção: O modelo de feedback foi preterido e será removido em uma versão futura. Atualize para o MLflow 3 e use a log_feedback API. Consulte Coletar comentários de usuários.
  • Crie um modelo de feedback para aceitar e registrar comentários do aplicativo Avaliações.
  • Este modelo é servido no mesmo endpoint de serviço do modelo de CPU que o seu agente implantado.

MLflow 2

deploy() ação Description
Criar endpoint de serviço de modelo Cria um endpoint de API REST escalável que serve o seu agente para aplicações voltadas para o utilizador com balanceamento automático de carga.
Provisionar autenticação segura Fornece automaticamente credenciais de curta duração que permitem que seu agente acesse recursos gerenciados pelo Databricks (índices de Pesquisa Vetorial, funções do Catálogo Unity, etc.) com permissões mínimas necessárias.
O Databricks verifica se o proprietário do endpoint tem as permissões adequadas antes de emitir credenciais, impedindo o acesso não autorizado.
Para recursos que não sejam Databricks, passe variáveis de ambiente com segredos para deploy(). Consulte Configurar o acesso a recursos a partir dos endpoints de fornecimento de modelos.
Ativar aplicação de revisão Fornece uma interface web onde as partes interessadas podem interagir com seu agente e fornecer feedback. Consulte Recolha de comentários e expectativas através da rotulagem de traços existentes.
Habilitar tabelas de inferência Cria tabelas que registram entradas e respostas de solicitações para auditoria e análise.
Atenção: Os logs de solicitação e os logs de avaliação foram preteridos e serão removidos em uma versão futura. Consulte a substituição de logs de solicitação e logs de avaliação para obter diretrizes de migração.
Registrar solicitações da API REST e revisar comentários do aplicativo (preterido) Registra solicitações de API e comentários em uma tabela de inferência.
Atenção: O modelo de feedback foi preterido e será removido em uma versão futura. Atualize para o MLflow 3 e use a log_feedback API. Consulte Coletar comentários de usuários.
  • Crie um modelo de feedback para aceitar e registrar comentários do aplicativo Avaliações.
  • Este modelo é servido no mesmo endpoint de serviço do modelo de CPU que o seu agente implantado.

Próximos passos