Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Databricks empfiehlt die Verwendung von MLflow 3 für die Auswertung und Überwachung von GenAI-Apps. Diese Seite beschreibt die MLflow 2-Agent-Auswertung.
- Eine Einführung in die Auswertung und Überwachung von MLflow 3 finden Sie unter Evaluieren und Überwachen von KI-Agents.
- Informationen zum Migrieren zu MLflow 3 finden Sie unter Migrieren zu MLflow 3 aus der Agentauswertung.
- Informationen zu MLflow 3 zu diesem Thema finden Sie unter Auswerten und Überwachen von KI-Agents.
Das folgende Notebook veranschaulicht die Evaluierung einer KI-App mit Hilfe der proprietären LLM-Judges von Agent Evaluation, angepassten Metriken und Bezeichnungen von Domänenexperten. Es veranschaulicht Folgendes:
- Wie Sie Produktionsprotokolle (Traces) in ein Dataset zur Evaluierung laden.
- Wie man eine Bewertung durchführt und eine Ursachenanalyse macht.
- So erstellen Sie benutzerdefinierte Metriken, um Qualitätsprobleme automatisch zu erkennen.
- Wie man Produktionsprotokolle sendet, damit KMU den Evaluierungsdatensatz kennzeichnen und weiterentwickeln können.
Informationen zum Vorbereiten Ihres Agenten für die Vorproduktion finden Sie im Demonotizbuch des Mosaik AI-Agents. Allgemeine Informationen finden Sie unter Mosaik AI Agent Evaluation (MLflow 2).