Partager via


DatasetSnapshot Classe

Gère les instantanés de jeu de données avec des opérations pour obtenir un snapsot, retourner son état et le convertir en trame de données.

Remarque

Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Un objet DataSnapshot est retourné à partir de la create_snapshot méthode de la Dataset classe.

L’instantané de jeu de données est une combinaison de Profil et d’une copie matérialisée facultative des données.

Pour en savoir plus sur les instantanés de jeu de données, accédez à https://aka.ms/azureml/howto/createsnapshots

Constructeur

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Paramètres

Nom Description
workspace
Obligatoire
<xref:azureml.core.Workspace.>

L’espace de travail dans lequel le jeu de données est inscrit.

snapshot_name
Obligatoire
str

Nom de l’instantané du jeu de données.

dataset_id
Obligatoire
str

Identificateur du jeu de données.

definition_version
Obligatoire
str

Version de définition du jeu de données.

time_stamp
Obligatoire

Heure de création d’instantané.

profile_action_id
Obligatoire
str

ID d’action du profil d’instantané.

datastore_name
Obligatoire
str

Nom du magasin de données d’instantané.

relative_path
Obligatoire
str

Chemin relatif des données d’instantané.

dataset_name
Obligatoire
str

Nom du jeu de données.

Méthodes

compare_profiles

Comparez le profil de jeu de données actuel avec rhs_dataset profil.

Si les profils n’existent pas, cette méthode génère une exception.

get

Obtenez l’instantané du jeu de données par nom d’instantané.

get_all

Obtenez tous les instantanés du jeu de données donné.

get_profile

Obtenez le profil de l’instantané du jeu de données.

get_status

Obtenez l’état de création de capture instantanée du jeu de données.

is_data_snapshot_available

Vérifiez si la copie matérialisée de l’instantané est disponible.

to_pandas_dataframe

Créez un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.

to_spark_dataframe

Créez un DataFrame Spark en chargeant les données enregistrées avec l’instantané.

wait_for_completion

Attendez la fin de la génération datasetSnapshot.

compare_profiles

Comparez le profil de jeu de données actuel avec rhs_dataset profil.

Si les profils n’existent pas, cette méthode génère une exception.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Paramètres

Nom Description
rhs_dataset_snapshot
Obligatoire

Capture instantanée du jeu de données à comparer.

include_columns

Liste des noms de colonnes à inclure dans la comparaison.

Valeur par défaut: None
exclude_columns

Liste des noms de colonnes à exclure dans la comparaison.

Valeur par défaut: None
histogram_compare_method

Énumération décrivant la méthode de comparaison, par exemple : WASSERSTEIN ou ENERGY.

Valeur par défaut: HistogramCompareMethod.WASSERSTEIN

Retours

Type Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Différence entre les profils.

get

Obtenez l’instantané du jeu de données par nom d’instantané.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Paramètres

Nom Description
workspace
Obligatoire

L’espace de travail dans lequel le jeu de données est inscrit.

snapshot_name
Obligatoire
str

Nom de l’instantané du jeu de données.

dataset_name
Obligatoire

Nom du jeu de données.

dataset_id
Obligatoire

Identificateur du jeu de données.

Retours

Type Description

Objet DatasetSnapshot.

get_all

Obtenez tous les instantanés du jeu de données donné.

static get_all(workspace, dataset_name)

Paramètres

Nom Description
workspace
Obligatoire

L’espace de travail dans lequel le jeu de données est inscrit.

dataset_name
Obligatoire

Nom du jeu de données.

Retours

Type Description

Liste des instantanés de jeu de données

get_profile

Obtenez le profil de l’instantané du jeu de données.

get_profile()

Retours

Type Description
<xref:azureml.dataprep.DataProfile>

DataProfile de l’instantané du jeu de données

get_status

Obtenez l’état de création de capture instantanée du jeu de données.

get_status()

Retours

Type Description
str

État de l’instantané du jeu de données.

is_data_snapshot_available

Vérifiez si la copie matérialisée de l’instantané est disponible.

is_data_snapshot_available()

Retours

Type Description

True si l’instantané de données est disponible.

to_pandas_dataframe

Créez un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.

to_pandas_dataframe()

Retours

Type Description

Un DataFrame Pandas.

Remarques

Le DataFrame Pandas est entièrement matérialisé en mémoire. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée. Pour vérifier si l’instantané contient des données, utilisez la fonction is_data_snapshot_available.

to_spark_dataframe

Créez un DataFrame Spark en chargeant les données enregistrées avec l’instantané.

to_spark_dataframe()

Retours

Type Description

Un DataFrame Spark.

Remarques

Le Dataframe Spark retourné n’est qu’un plan d’exécution et ne contient pas réellement de données, car les trames de données Spark sont évaluées de manière différée. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée lorsque vous essayez d’accéder aux données. Pour vérifier si l’instantané contient des données, utilisez is_data_snapshot_available.

wait_for_completion

Attendez la fin de la génération datasetSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Paramètres

Nom Description
show_output

Indique si la méthode imprime la sortie.

Valeur par défaut: True
status_update_frequency
int

Fréquence de mise à jour de l’état de l’exécution de l’action en secondes.

Valeur par défaut: 10

Attributs

dataset_id

Obtenez l’identificateur du jeu de données.

Retours

Type Description
str

ID du jeu de données.

name

Obtenez le nom de l’instantané du jeu de données.

Retours

Type Description
str

Nom de l’instantané du jeu de données.

workspace

Obtenez l’espace de travail Azure Machine Learning où le jeu de données est inscrit.

Retours

Type Description

Espace de travail où le jeu de données est inscrit.