Freigeben über


Lernprogramm für Mosaik AI Agent Evaluation (MLflow 2)

Von Bedeutung

Databricks empfiehlt die Verwendung von MLflow 3 für die Auswertung und Überwachung von GenAI-Apps. Diese Seite beschreibt die MLflow 2-Agent-Auswertung.

Das folgende Notebook veranschaulicht die Evaluierung einer KI-App mit Hilfe der proprietären LLM-Judges von Agent Evaluation, angepassten Metriken und Bezeichnungen von Domänenexperten. Es veranschaulicht Folgendes:

  • Wie Sie Produktionsprotokolle (Traces) in ein Dataset zur Evaluierung laden.
  • Wie man eine Bewertung durchführt und eine Ursachenanalyse macht.
  • So erstellen Sie benutzerdefinierte Metriken, um Qualitätsprobleme automatisch zu erkennen.
  • Wie man Produktionsprotokolle sendet, damit KMU den Evaluierungsdatensatz kennzeichnen und weiterentwickeln können.

Informationen zum Vorbereiten Ihres Agenten für die Vorproduktion finden Sie im Demonotizbuch des Mosaik AI-Agents. Allgemeine Informationen finden Sie unter Mosaik AI Agent Evaluation (MLflow 2).

Notebook mit angepassten Metriken, Richtlinien und Kennzeichnungen von Domänenexperten für Agent Evaluation

Notebook abrufen