Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
O Databricks recomenda o uso do MLflow 3 para avaliar e monitorar aplicativos GenAI. Esta página descreve a Avaliação do Agente do MLflow 2.
- Para obter uma introdução à avaliação e ao monitoramento no MLflow 3, consulte Avaliar e monitorar agentes de IA.
- Para obter informações sobre como migrar para o MLflow 3, consulte Migrar para o MLflow 3 da Avaliação do Agente.
- Para obter informações do MLflow 3 sobre este tópico, consulte Avaliar e monitorar agentes de IA.
O notebook a seguir demonstra como avaliar um aplicativo de IA generativa usando os avaliadores de LLM patenteados da Avaliação de Agentes, além de métricas personalizadas e rótulos fornecidos por especialistas em domínio. Ele demonstra o seguinte:
- Como carregar logs de produção (rastreamentos) em um conjunto de dados de avaliação.
- Como executar uma avaliação e fazer a análise de causa raiz.
- Como criar métricas personalizadas para detectar automaticamente problemas de qualidade.
- Como enviar logs de produção para PMEs rotularem e desenvolverem o conjunto de dados de avaliação.
Para preparar seu agente para pré-produção, consulte o notebook de demonstração do agente de IA do Mosaico. Para obter informações gerais, consulte Mosaic AI Agent Evaluation (MLflow 2).