Verfolgen von Experimenten und Modellen mithilfe von MLflow

Nachverfolgung ist der Prozess des Speicherns relevanter Informationen über Experimente. In diesem Artikel erfahren Sie, wie Sie MLflow zum Nachverfolgen von Experimenten und Ausführungen in Azure Machine Learning-Arbeitsbereichen verwenden.

Einige Methoden, die in der MLflow-API verfügbar sind, sind möglicherweise nicht verfügbar, wenn Sie Azure Machine Learning verwenden. Details zu unterstützten und nicht unterstützten Vorgängen finden Sie unter Unterstützungsmatrix zum Abfragen von Ausführungen und Experimenten. Sie können auch mehr über unterstützte MLflow-Funktionen in Azure Machine Learning aus dem Artikel MLflow und Azure Machine Learning erfahren.

Hinweis

Informationen zum Nachverfolgen von Experimenten auf Azure Databricks finden Sie unter Track Azure Databricks machine learning experiments with MLflow and Azure Machine Learning.
Informationen zum Nachverfolgen von Experimenten, die in Azure Synapse Analytics ausgeführt werden, finden Sie unter Nachverfolgen von Azure Synapse Analytics-ML-Experimenten mit MLflow und Azure Machine Learning.

Voraussetzungen

Sie verfügen über ein Azure-Abonnement und die kostenlose oder kostenpflichtige Version von Azure Machine Learning.
Um Azure CLI- und Python-Befehle auszuführen, installieren Sie Azure CLI v2 und das Azure Machine Learning SDK v2 für Python. Die ml-Erweiterung für Azure CLI wird automatisch installiert, wenn Sie zum ersten Mal einen Azure Machine Learning CLI-Befehl ausführen.

Installieren Sie das MLflow SDK-Paket mlflow und das Azure Machine Learning-Plug-In azureml-mlflow für MLflow:
```
pip install mlflow azureml-mlflow
```
Tipp

Sie können auch das Paket mlflow-skinny verwenden. Dabei handelt es sich um ein abgespecktes MLflow-Paket ohne SQL-Speicher, Server, Benutzeroberfläche oder Data Science-Abhängigkeiten. Wir empfehlen dieses Paket für Benutzer, die in erster Linie die MLflow-Tracking- und Protokollierungsfunktionen benötigen, aber nicht die vollständige Suite von Features, einschließlich Bereitstellungen.
Erstellen Sie einen Azure Machine Learning-Arbeitsbereich. Informationen zum Erstellen eines Arbeitsbereichs finden Sie unter Erstellen von Ressourcen für die ersten Schritte. Überprüfen Sie die Zugriffsberechtigungen , die Sie zum Ausführen von MLflow-Vorgängen in Ihrem Arbeitsbereich benötigen.
Wenn Sie eine Remotenachverfolgung durchführen, d. h. eine Nachverfolgung von Experimenten, die außerhalb von Azure Machine Learning ausgeführt werden, konfigurieren Sie MLflow so, dass auf den Nachverfolgungs-URI Ihres Azure Machine Learning-Arbeitsbereichs verwiesen wird. Weitere Informationen zum Herstellen einer Verbindung zwischen MLflow und dem Arbeitsbereich finden Sie unter Konfigurieren von MLflow für Azure Machine Learning.

Konfigurieren des Experiments

MLflow organisiert Informationen in Experimenten und Ausführungen. Ausführungen werden in Azure Machine Learning als Aufträge bezeichnet. Standardmäßig werden Ausführungen in einem automatisch erstellten Experiment mit dem Namen Default protokolliert, Sie können aber konfigurieren, welches Experiment nachverfolgt werden soll.

Notizbücher
Aufträge

Verwenden Sie für interaktives Training, z. B. in einem Jupyter Notebook, den MLflow-Befehl mlflow.set_experiment(). Der folgende Codeschnipsel konfiguriert beispielsweise ein Experiment:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Wenn Sie Aufträge mithilfe der Azure Machine Learning-CLI oder des SDK übermitteln möchten, legen Sie den Namen des Experiments fest, indem Sie die Eigenschaft experiment_name des Auftrags verwenden. Sie müssen den Namen des Experiments nicht in Ihrem Schulungsskript konfigurieren.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Konfigurieren der Ausführung

Azure Machine Learning verfolgt Trainingsläufe, die MLflow als Durchläufe bezeichnet. Verwenden Sie Ausführungen, um die gesamte Verarbeitung zu erfassen, die Ihr Auftrag ausführt.

Notizbücher
Aufträge

Beim interaktiven Arbeiten beginnt MLflow mit der Nachverfolgung Ihrer Trainingsroutine, sobald Sie Informationen protokollieren, die eine aktive Ausführung erfordern. Wenn beispielsweise die Autoprotokollierungsfunktion von MLflow aktiviert ist, beginnt die MLflow-Nachverfolgung, wenn Sie eine Metrik oder einen Parameter protokollieren oder einen Schulungszyklus starten.

In der Regel ist es jedoch hilfreich, die Ausführung explizit zu starten, insbesondere, wenn Sie die Gesamtzeit Ihres Experiments im Feld Dauer erfassen möchten. Um die Ausführung explizit zu starten, verwenden Sie mlflow.start_run().

Unabhängig davon, ob Sie die Ausführung manuell starten oder nicht, müssen Sie die Ausführung schließlich beenden, damit MLflow weiß, dass Ihre Experimentausführung abgeschlossen ist und den Status der Ausführung als Abgeschlossen markieren kann. Verwenden Sie mlflow.end_run(), um eine Ausführung zu beenden.

Der folgende Code startet eine Ausführung manuell und endet am Ende des Notebooks:

mlflow.start_run()

# Your code

mlflow.end_run()

Es ist am besten, Ausführungen manuell zu starten, damit Sie nicht vergessen, sie zu beenden. Normalerweise ist es hilfreich, das Paradigma des Kontextmanagers zu verwenden, um sich daran zu erinnern, die Ausführung zu beenden.

with mlflow.start_run() as run:
    # Your code

Wenn Sie eine neue Ausführung durch Verwendung von mlflow.start_run() starten, kann es hilfreich sein, den Parameter run_name anzugeben, der später in den Namen der Ausführung in der Azure Machine Learning-Benutzeroberfläche übersetzt wird. Dies hilft Ihnen, die Ausführung schneller zu identifizieren.

with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code

Azure Machine Learning-Aufträge ermöglichen es Ihnen, zeitintensive Trainings- oder Rückschlussroutinen als isolierte und reproduzierbare Ausführungen zu übermitteln.

Erstellen einer Trainingsroutine mit Nachverfolgung

Wenn Sie mit Aufträgen arbeiten, schließen Sie in der Regel Ihre gesamte Trainingslogik als Dateien in einem Ordner ein, z. B. src. Eine dieser Dateien ist eine Python-Datei mit Ihrem Einstiegspunkt für den Trainingscode.

In Ihrer Schulungsroutine können Sie das MLflow SDK verwenden, um alle Metriken, Parameter, Artefakte oder Modelle nachzuverfolgen. Beispiele finden Sie unter Protokollieren von Metriken, Parametern und Dateien mit MLflow.

Das folgende Beispiel zeigt eine hello_world.py-Trainingsroutine, die Protokollierung hinzufügt:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

Im vorherigen Codebeispiel wird nicht verwendet mlflow.start_run(). Wenn diese Linie verwendet wird, verwendet MLflow den aktuellen aktiven Lauf wieder. Daher müssen Sie den Code nicht entfernen mlflow.start_run() , wenn Sie Code zu Azure Machine Learning migrieren.

Stellen Sie sicher, dass MLflow in der Umgebung Ihres Auftrags installiert ist

In allen kuratierten Azure Machine Learning-Umgebungen ist MLflow bereits installiert. Wenn Sie jedoch eine benutzerdefinierte Umgebung verwenden, erstellen Sie eine conda.yml Datei mit den benötigten Abhängigkeiten, und verweisen Sie auf die Umgebung in Ihrem Auftrag.

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Konfigurieren des Auftragsnamens

Verwenden Sie den Parameter display_name von Azure Machine Learning-Aufträgen, um den Namen der Ausführung zu konfigurieren.

Verwenden Sie die Eigenschaft display_name, um den Auftrag zu konfigurieren.

Azure-Befehlszeilenschnittstelle
Python SDK

Um den Auftrag zu konfigurieren, erstellen Sie eine YAML-Datei mit Ihrer Auftragsdefinition in einer job.yml-Datei außerhalb des src-Verzeichnisses.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Achten Sie darauf, dass Sie nicht in Ihrer Schulungsroutine verwenden mlflow.start_run(run_name="") .

Übermitteln des Auftrags

Der Arbeitsbereich ist die Ressource der obersten Ebene für Azure Machine Learning und ein zentraler Ort für die Arbeit mit allen Azure Machine Learning-Artefakten, die Sie erstellen. Stellen Sie eine Verbindung mit dem Azure Machine Learning-Arbeitsbereich her.
- Azure-Befehlszeilenschnittstelle
- Python SDK
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
```
1. Importieren Sie die erforderlichen Bibliotheken.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
```
2. Konfigurieren von Arbeitsbereichsdetails und Abrufen eines Handles für den Arbeitsbereich:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```
Öffnen Sie ein Terminal, und verwenden Sie den folgenden Code, um den Auftrag zu übermitteln. Aufträge, die MLflow verwenden und in Azure Machine Learning ausgeführt werden, protokollieren automatisch alle Nachverfolgungsinformationen im Arbeitsbereich.
- Azure-Befehlszeilenschnittstelle
- Python SDK
Verwenden Sie die Azure Machine Learning CLI , um Ihren Auftrag zu übermitteln.
```
az ml job create -f job.yml --web
```
Verwenden Sie das Python SDK zum Übermitteln von Optimierungsaufträgen.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Überwachen des Auftragsfortschritts im Azure Machine Learning Studio.

Aktivieren Sie die automatische MLflow-Protokollierung

Sie können Metriken, Parameter und Dateien mit MLflow manuell protokollieren, und Sie können auch auf die automatische Protokollierungsfunktion von MLflow zurückgreifen. Jedes von MLflow unterstützte Maschinelle Lernframework bestimmt, was automatisch nachverfolgt werden soll.

Um die automatische Protokollierung zu aktivieren, fügen Sie den folgenden Code vor Ihrem Trainingscode ein:

mlflow.autolog()

Anzeigen von Metriken und Artefakten in Ihrem Arbeitsbereich

Die Metriken und Artefakte aus dem MLflow-Protokoll werden in Ihrem Arbeitsbereich nachverfolgt. Sie können sie im Azure Machine Learning Studio anzeigen und darauf zugreifen oder programmgesteuert über das MLflow SDK darauf zugreifen.

So zeigen Sie Metriken und Artefakten im Studio an:

Wählen Sie auf der Seite Aufträge in Ihrem Arbeitsbereich den Namen des Experiments aus.
Wählen Sie auf der Detailseite des Experiments die Registerkarte Metriken aus.
Wählen Sie protokollierte Metriken aus, um Diagramme auf der rechten Seite der Seite zu rendern. Sie können Diagramme anpassen, indem Sie eine Glättung anwenden, die Farbe ändern oder mehrere Metriken in einem einzelnen Graphen zeichnen. Sie können auch die Größe und Anordnung des Layouts ändern.
Nachdem Sie die gewünschte Ansicht erstellt haben, speichern Sie sie für die zukünftige Verwendung, und geben Sie sie mithilfe eines direkten Links für Ihre Teamkollegen frei.

Verwenden Sie mlflow.get_run(), um programmgesteuert auf Metriken, Parameter und Artefakte mithilfe des MLflow SDK zuzugreifen.

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Tipp

Im vorherigen Beispiel wird nur der letzte Wert einer angegebenen Metrik zurückgegeben. Wenn Sie alle Werte einer bestimmten Metrik abrufen möchten, verwenden Sie die mlflow.get_metric_history-Methode. Weitere Informationen zum Abrufen von Werten einer Metrik finden Sie unter Abrufen von Parametern und Metriken aus einer Ausführung.

Um von Ihnen protokollierte Artefakte wie Dateien und Modelle herunterzuladen, verwenden Sie mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Weitere Informationen zum Abrufen oder Vergleichen von Informationen aus Experimenten und Ausführungen in Azure Machine Learning mithilfe von MLflow finden Sie unter Abfragen und Vergleichen von Experimenten und Ausführungen mit MLflow.

Feedback

War diese Seite hilfreich?

Last updated on 2025-10-31