Partilhar via


Notebook de tutorial de Avaliação de Agente Mosaic AI (MLflow 2)

Importante

A Databricks recomenda o uso do MLflow 3 para avaliar e monitorar aplicativos GenAI. Esta página descreve a Avaliação do Agente MLflow 2.

O seguinte notebook demonstra como avaliar uma aplicação de IA gerativa usando os juízes LLM proprietários da empresa Agent Evaluation, critérios personalizados e rótulos de especialistas no domínio. Demonstra o seguinte:

  • Como carregar logs de produção (rastreamentos) em um conjunto de dados de avaliação.
  • Como executar uma avaliação e fazer análise de causa raiz.
  • Como criar métricas personalizadas para detetar automaticamente problemas de qualidade.
  • Como enviar logs de produção para PMEs rotularem e evoluírem o conjunto de dados de avaliação.

Para preparar o seu agente para a pré-produção, consulte o caderno de demonstração do agente da Mosaic AI. Para obter informações gerais, consulte Mosaic AI Agent Evaluation (MLflow 2).

Caderno de métricas personalizadas, diretrizes e rótulos de especialistas de domínio da Avaliação de Agentes

Obter bloco de notas