Notebook do tutorial de Avaliação do Agente de IA do Mosaico (MLflow 2)

Importante

O Databricks recomenda o uso do MLflow 3 para avaliar e monitorar aplicativos GenAI. Esta página descreve a Avaliação do Agente do MLflow 2.

Para obter uma introdução à avaliação e ao monitoramento no MLflow 3, consulte Avaliar e monitorar agentes de IA.
Para obter informações sobre como migrar para o MLflow 3, consulte Migrar para o MLflow 3 da Avaliação do Agente.
Para obter informações do MLflow 3 sobre este tópico, consulte Avaliar e monitorar agentes de IA.

O notebook a seguir demonstra como avaliar um aplicativo de IA generativa usando os avaliadores de LLM patenteados da Avaliação de Agentes, além de métricas personalizadas e rótulos fornecidos por especialistas em domínio. Ele demonstra o seguinte:

Como carregar logs de produção (rastreamentos) em um conjunto de dados de avaliação.
Como executar uma avaliação e fazer a análise de causa raiz.
Como criar métricas personalizadas para detectar automaticamente problemas de qualidade.
Como enviar logs de produção para PMEs rotularem e desenvolverem o conjunto de dados de avaliação.

Para preparar seu agente para pré-produção, consulte o notebook de demonstração do agente de IA do Mosaico. Para obter informações gerais, consulte Mosaic AI Agent Evaluation (MLflow 2).

Notebook de métricas personalizadas, diretrizes e rótulos de especialistas em domínio da Avaliação do Agente

Obter laptop

Comentários

Esta página foi útil?

Last updated on 2025-10-23

Compartilhar via

Notebook do tutorial de Avaliação do Agente de IA do Mosaico (MLflow 2)

Notebook de métricas personalizadas, diretrizes e rótulos de especialistas em domínio da Avaliação do Agente

Comentários

Recursos adicionais