Compartilhar via


Notebook do tutorial de Avaliação do Agente de IA do Mosaico (MLflow 2)

Importante

O Databricks recomenda o uso do MLflow 3 para avaliar e monitorar aplicativos GenAI. Esta página descreve a Avaliação do Agente do MLflow 2.

O notebook a seguir demonstra como avaliar um aplicativo de IA generativa usando os avaliadores de LLM patenteados da Avaliação de Agentes, além de métricas personalizadas e rótulos fornecidos por especialistas em domínio. Ele demonstra o seguinte:

  • Como carregar logs de produção (rastreamentos) em um conjunto de dados de avaliação.
  • Como executar uma avaliação e fazer a análise de causa raiz.
  • Como criar métricas personalizadas para detectar automaticamente problemas de qualidade.
  • Como enviar logs de produção para PMEs rotularem e desenvolverem o conjunto de dados de avaliação.

Para preparar seu agente para pré-produção, consulte o notebook de demonstração do agente de IA do Mosaico. Para obter informações gerais, consulte Mosaic AI Agent Evaluation (MLflow 2).

Notebook de métricas personalizadas, diretrizes e rótulos de especialistas em domínio da Avaliação do Agente

Obter laptop