DatasetSnapshot Classe
Gère les instantanés de jeu de données avec des opérations pour obtenir un snapsot, retourner son état et le convertir en trame de données.
Remarque
Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Un objet DataSnapshot est retourné à partir de la create_snapshot méthode de la Dataset classe.
L’instantané de jeu de données est une combinaison de Profil et d’une copie matérialisée facultative des données.
Pour en savoir plus sur les instantanés de jeu de données, accédez à https://aka.ms/azureml/howto/createsnapshots
Constructeur
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
<xref:azureml.core.Workspace.>
L’espace de travail dans lequel le jeu de données est inscrit. |
|
snapshot_name
Obligatoire
|
Nom de l’instantané du jeu de données. |
|
dataset_id
Obligatoire
|
Identificateur du jeu de données. |
|
definition_version
Obligatoire
|
Version de définition du jeu de données. |
|
time_stamp
Obligatoire
|
Heure de création d’instantané. |
|
profile_action_id
Obligatoire
|
ID d’action du profil d’instantané. |
|
datastore_name
Obligatoire
|
Nom du magasin de données d’instantané. |
|
relative_path
Obligatoire
|
Chemin relatif des données d’instantané. |
|
dataset_name
Obligatoire
|
Nom du jeu de données. |
Méthodes
| compare_profiles |
Comparez le profil de jeu de données actuel avec rhs_dataset profil. Si les profils n’existent pas, cette méthode génère une exception. |
| get |
Obtenez l’instantané du jeu de données par nom d’instantané. |
| get_all |
Obtenez tous les instantanés du jeu de données donné. |
| get_profile |
Obtenez le profil de l’instantané du jeu de données. |
| get_status |
Obtenez l’état de création de capture instantanée du jeu de données. |
| is_data_snapshot_available |
Vérifiez si la copie matérialisée de l’instantané est disponible. |
| to_pandas_dataframe |
Créez un DataFrame Pandas en chargeant les données enregistrées avec l’instantané. |
| to_spark_dataframe |
Créez un DataFrame Spark en chargeant les données enregistrées avec l’instantané. |
| wait_for_completion |
Attendez la fin de la génération datasetSnapshot. |
compare_profiles
Comparez le profil de jeu de données actuel avec rhs_dataset profil.
Si les profils n’existent pas, cette méthode génère une exception.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Paramètres
| Nom | Description |
|---|---|
|
rhs_dataset_snapshot
Obligatoire
|
Capture instantanée du jeu de données à comparer. |
|
include_columns
|
Liste des noms de colonnes à inclure dans la comparaison. Valeur par défaut: None
|
|
exclude_columns
|
Liste des noms de colonnes à exclure dans la comparaison. Valeur par défaut: None
|
|
histogram_compare_method
|
Énumération décrivant la méthode de comparaison, par exemple : WASSERSTEIN ou ENERGY. Valeur par défaut: HistogramCompareMethod.WASSERSTEIN
|
Retours
| Type | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Différence entre les profils. |
get
Obtenez l’instantané du jeu de données par nom d’instantané.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail dans lequel le jeu de données est inscrit. |
|
snapshot_name
Obligatoire
|
Nom de l’instantané du jeu de données. |
|
dataset_name
Obligatoire
|
Nom du jeu de données. |
|
dataset_id
Obligatoire
|
Identificateur du jeu de données. |
Retours
| Type | Description |
|---|---|
|
Objet DatasetSnapshot. |
get_all
Obtenez tous les instantanés du jeu de données donné.
static get_all(workspace, dataset_name)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail dans lequel le jeu de données est inscrit. |
|
dataset_name
Obligatoire
|
Nom du jeu de données. |
Retours
| Type | Description |
|---|---|
|
Liste des instantanés de jeu de données |
get_profile
Obtenez le profil de l’instantané du jeu de données.
get_profile()
Retours
| Type | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
DataProfile de l’instantané du jeu de données |
get_status
Obtenez l’état de création de capture instantanée du jeu de données.
get_status()
Retours
| Type | Description |
|---|---|
|
État de l’instantané du jeu de données. |
is_data_snapshot_available
Vérifiez si la copie matérialisée de l’instantané est disponible.
is_data_snapshot_available()
Retours
| Type | Description |
|---|---|
|
True si l’instantané de données est disponible. |
to_pandas_dataframe
Créez un DataFrame Pandas en chargeant les données enregistrées avec l’instantané.
to_pandas_dataframe()
Retours
| Type | Description |
|---|---|
|
Un DataFrame Pandas. |
Remarques
Le DataFrame Pandas est entièrement matérialisé en mémoire. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée. Pour vérifier si l’instantané contient des données, utilisez la fonction is_data_snapshot_available.
to_spark_dataframe
Créez un DataFrame Spark en chargeant les données enregistrées avec l’instantané.
to_spark_dataframe()
Retours
| Type | Description |
|---|---|
|
Un DataFrame Spark. |
Remarques
Le Dataframe Spark retourné n’est qu’un plan d’exécution et ne contient pas réellement de données, car les trames de données Spark sont évaluées de manière différée. Si l’instantané a été créé avec create_data_snapshot=False, une exception est levée lorsque vous essayez d’accéder aux données. Pour vérifier si l’instantané contient des données, utilisez is_data_snapshot_available.
wait_for_completion
Attendez la fin de la génération datasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Paramètres
| Nom | Description |
|---|---|
|
show_output
|
Indique si la méthode imprime la sortie. Valeur par défaut: True
|
|
status_update_frequency
|
Fréquence de mise à jour de l’état de l’exécution de l’action en secondes. Valeur par défaut: 10
|
Attributs
dataset_id
name
Obtenez le nom de l’instantané du jeu de données.
Retours
| Type | Description |
|---|---|
|
Nom de l’instantané du jeu de données. |
workspace
Obtenez l’espace de travail Azure Machine Learning où le jeu de données est inscrit.
Retours
| Type | Description |
|---|---|
|
Espace de travail où le jeu de données est inscrit. |