DatasetDefinition Classe

Définit une série d’étapes qui spécifient comment lire et transformer des données dans un jeu de données.

Remarque

Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

Un jeu de données inscrit dans un espace de travail Azure Machine Learning peut avoir plusieurs définitions, chacune créée en appelant update_definition. Chaque définition a un identificateur unique. La définition actuelle est la dernière créée.

Pour les jeux de données non inscrits, une seule définition existe.

Les définitions de jeu de données prennent en charge toutes les transformations répertoriées pour la <xref:azureml.dataprep.Dataflow> classe : voir http://aka.ms/azureml/howto/transformdata. Pour en savoir plus sur les définitions de jeux de données, accédez à https://aka.ms/azureml/howto/versiondata.

Initialisez l’objet de définition de jeu de données.

Constructeur

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Paramètres

Nom	Description
workspace Obligatoire	str L’espace de travail dans lequel le jeu de données est inscrit.
dataset_id Obligatoire	str Identificateur du jeu de données.
version_id Obligatoire	str Version de définition.
dataflow Obligatoire	str Objet Dataflow.
dataflow_json Obligatoire	Dataflow json.
notes Obligatoire	str Informations facultatives sur la définition.
etag Obligatoire	str Etag.
created_time Obligatoire	datetime Heure de création de la définition.
modified_time Obligatoire	datetime Heure de dernière modification de la définition.
deprecated_by_dataset_id Obligatoire	str ID du jeu de données qui déprécie cette définition.
deprecated_by_definition_version Obligatoire	str Version de la définition qui déprécie cette définition.
data_path Obligatoire	DataPath Chemin d’accès aux données.
dataset Obligatoire	Dataset Objet Dataset parent.

Méthodes

archive	Archivez la définition du jeu de données.
create_snapshot	Créez un instantané du jeu de données inscrit.
deprecate	Dépréciez le jeu de données, avec un pointeur vers le nouveau jeu de données.
reactivate	Réactivez la définition du jeu de données. Fonctionne sur les définitions de jeu de données qui ont été dépréciées ou archivées.
to_pandas_dataframe	Créez un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.
to_spark_dataframe	Créez un DataFrame Spark qui peut exécuter le pipeline de transformation défini par ce dataflow.

create_snapshot

Créez un instantané du jeu de données inscrit.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Paramètres

Nom	Description
snapshot_name Obligatoire	str Nom de l’instantané. Les noms d’instantanés doivent être uniques dans un jeu de données.
compute_target	ComputeTarget ou str Cible de calcul pour effectuer la création du profil d’instantané. S’il est omis, le calcul local est utilisé. Valeur par défaut: None
create_data_snapshot	bool Si la valeur est True, une copie matérialisée des données est créée. Valeur par défaut: False
target_datastore	Union[AbstractAzureStorageDatastore, str] Magasin de données cible où enregistrer l’instantané. S’il est omis, l’instantané est créé dans le stockage par défaut de l’espace de travail. Valeur par défaut: None

Retours

Type	Description
DatasetSnapshot	Objet DatasetSnapshot.

Remarques

Les captures instantanées capturent des statistiques récapitulatives de point dans le temps des données sous-jacentes et une copie facultative des données elles-mêmes. Pour en savoir plus sur la création d’instantanés, accédez à https://aka.ms/azureml/howto/createsnapshots.

deprecate

Dépréciez le jeu de données, avec un pointeur vers le nouveau jeu de données.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Paramètres

Nom	Description
deprecate_by_dataset_id Obligatoire	uuid ID de jeu de données qui est responsable de la dépréciation du jeu de données actuel.
deprecated_by_definition_version	str Version de la définition du jeu de données qui est responsable de la dépréciation de la définition de jeu de données actuelle. Valeur par défaut: None

Retours

Type	Description
None	Aucun.

Remarques

Les définitions de jeu de données déconseillées consignent les avertissements lorsqu’ils sont consommés. Pour bloquer complètement la consommation d’une définition de jeu de données, archivez-la.

Si une définition de jeu de données est déconseillée par accident, utilisez-la reactivate pour l’activer.

reactivate

Réactivez la définition du jeu de données.

Fonctionne sur les définitions de jeu de données qui ont été dépréciées ou archivées.

reactivate()

Retours

Type	Description
None	Aucun.

to_pandas_dataframe

Créez un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.

to_pandas_dataframe()

Retours

Type	Description
DataFrame	Un DataFrame Pandas.

Remarques

Retourne un DataFrame Pandas entièrement matérialisé en mémoire.

to_spark_dataframe

Créez un DataFrame Spark qui peut exécuter le pipeline de transformation défini par ce dataflow.

to_spark_dataframe()

Retours

Type	Description
DataFrame	Un DataFrame Spark.

Remarques

Le Dataframe Spark retourné n’est qu’un plan d’exécution et ne contient pas réellement de données, car les trames de données Spark sont évaluées de manière différée.

Commentaires

Cette page a-t-elle été utile ?

Partager via

DatasetDefinition Classe

Constructeur

Paramètres

Méthodes

archive

Retours

Remarques

create_snapshot

Paramètres

Retours

Remarques

deprecate

Paramètres

Retours

Remarques

reactivate

Retours

to_pandas_dataframe

Retours

Remarques

to_spark_dataframe

Retours

Remarques

Commentaires