Delen via


Kiezen waar uw MLflow-gegevens worden opgeslagen

MLflow-traceringsservers slaan uw experimentgegevens, uitvoeringen en modellen op en beheren deze. Configureer uw trackingservers om te bepalen waar uw MLflow-gegevens worden opgeslagen en hoe u toegang krijgt tot experimenten in verschillende omgevingen.

Databricks-gehoste traceringsserver

Databricks biedt standaard een beheerde MLflow-traceringsserver die:

  • Vereist geen extra installatie of configuratie
  • Slaat experimentgegevens op in uw werkruimte
  • Naadloos geïntegreerd met Databricks-notebooks en -clusters

Het actieve experiment instellen

Standaard worden alle MLflow-uitvoeringen vastgelegd op de traceringsserver van de werkruimte met behulp van het actieve experiment. Als er geen experiment expliciet is ingesteld, worden uitvoeringen vastgelegd in het notebookexperiment.

Bepaal waar uitvoeringen worden vastgelegd in Databricks door het actieve experiment in te stellen:

Mlflow.set_experiment()

Stel een experiment in voor alle volgende uitvoeringen in de uitvoering.

import mlflow

mlflow.set_experiment("/Shared/my-experiment")

Mlflow.start_run()

Stel het experiment in voor een specifieke uitvoering.

with mlflow.start_run(experiment_id="12345"):
    mlflow.log_param("learning_rate", 0.01)

Omgevingsvariabelen

Stel een experiment in voor alle uitvoeringen in de omgeving.

import os
os.environ["MLFLOW_EXPERIMENT_NAME"] = "/Shared/my-experiment"
# or
os.environ["MLFLOW_EXPERIMENT_ID"] = "12345"

Tracering instellen op een externe MLflow-traceringsserver

Mogelijk moet u een verbinding instellen met een externe MLflow-traceringsserver. Dit kan komen doordat u lokaal ontwikkelt en wilt bijhouden op de gehoste Databricks-server, of als u wilt bijhouden naar een andere MLflow-traceringsserver. Bijvoorbeeld een werkruimte die zich in een andere werkruimte bevindt.

Algemene scenario's voor externe tracering:

Scenario Gebruikssituatie
Tracering tussen werkruimten Gecentraliseerde experimenten bijhouden in meerdere werkruimten
Lokale ontwikkeling Lokaal ontwikkelen, maar experimenten bijhouden in Databricks
Extern zelf-hostend Aangepaste MLflow-infrastructuur met specifieke nalevingsvereisten

De tracerings-URI en het experiment instellen

Als u experimenten wilt registreren bij een externe traceringsserver, configureert u zowel de tracerings-URI als het experimentpad:

import mlflow

# Set the tracking URI to the remote server
mlflow.set_tracking_uri("databricks://remote-workspace-url")

# Set the experiment path in the remote server
mlflow.set_experiment("/Shared/centralized-experiments/my-project")

# All subsequent runs will be logged to the remote server
with mlflow.start_run():
    mlflow.log_param("model_type", "random_forest")
    mlflow.log_metric("accuracy", 0.95)

Verificatiemethoden

Voor externe traceringsserververbindingen is de juiste verificatie vereist. Kies tussen persoonlijke toegangstokens (PAT) of OAuth met behulp van service-principals.

PAT

Gebruik PAT's voor eenvoudige verificatie op basis van tokens.

Pros: Eenvoudige installatie, goed voor ontwikkeling

Tegens: Gebruikersspecifiek, vereist handmatig tokenbeheer

import os

# Set authentication token
os.environ["DATABRICKS_TOKEN"] = "your-personal-access-token"

# Configure remote tracking
mlflow.set_tracking_uri("databricks://remote-workspace-url")
mlflow.set_experiment("/Shared/remote-experiment")

OAuth (service-principal)

Gebruik OAuth met referenties van de service-principal voor geautomatiseerde werkstromen.

Pros: Beter voor automatisering, gecentraliseerd identiteitsbeheer

Tegens: Vereist configuratie van de service-principal en OAuth-configuratie

Maak een service-principal. Zie Service-principals beheren.

import os

# Set service principal credentials
os.environ["DATABRICKS_CLIENT_ID"] = "your-service-principal-client-id"
os.environ["DATABRICKS_CLIENT_SECRET"] = "your-service-principal-secret"

# Configure remote tracking
mlflow.set_tracking_uri("databricks://remote-workspace-url")
mlflow.set_experiment("/Shared/remote-experiment")