Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
A Databricks recomenda o uso do MLflow 3 para avaliar e monitorar aplicativos GenAI. Esta página descreve a Avaliação do Agente MLflow 2.
- Para uma introdução à avaliação e monitorização no MLflow 3, consulte Avaliar e monitorizar agentes de IA.
- Para obter informações sobre como migrar para o MLflow 3, consulte Migrar para o MLflow 3 a partir da avaliação do agente.
- Para informações sobre o MLflow 3 sobre este tema, veja Avaliar e monitorizar agentes de IA.
O seguinte notebook demonstra como avaliar uma aplicação de IA gerativa usando os juízes LLM proprietários da empresa Agent Evaluation, critérios personalizados e rótulos de especialistas no domínio. Demonstra o seguinte:
- Como carregar logs de produção (rastreamentos) em um conjunto de dados de avaliação.
- Como executar uma avaliação e fazer análise de causa raiz.
- Como criar métricas personalizadas para detetar automaticamente problemas de qualidade.
- Como enviar logs de produção para PMEs rotularem e evoluírem o conjunto de dados de avaliação.
Para preparar o seu agente para a pré-produção, consulte o caderno de demonstração do agente da Mosaic AI. Para obter informações gerais, consulte Mosaic AI Agent Evaluation (MLflow 2).