DatasetDefinition Classe
Définit une série d’étapes qui spécifient comment lire et transformer des données dans un jeu de données.
Remarque
Cette classe est déconseillée. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Un jeu de données inscrit dans un espace de travail Azure Machine Learning peut avoir plusieurs définitions, chacune créée en appelant update_definition. Chaque définition a un identificateur unique. La définition actuelle est la dernière créée.
Pour les jeux de données non inscrits, une seule définition existe.
Les définitions de jeu de données prennent en charge toutes les transformations répertoriées pour la <xref:azureml.dataprep.Dataflow> classe : voir http://aka.ms/azureml/howto/transformdata. Pour en savoir plus sur les définitions de jeux de données, accédez à https://aka.ms/azureml/howto/versiondata.
Initialisez l’objet de définition de jeu de données.
Constructeur
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail dans lequel le jeu de données est inscrit. |
|
dataset_id
Obligatoire
|
Identificateur du jeu de données. |
|
version_id
Obligatoire
|
Version de définition. |
|
dataflow
Obligatoire
|
Objet Dataflow. |
|
dataflow_json
Obligatoire
|
Dataflow json. |
|
notes
Obligatoire
|
Informations facultatives sur la définition. |
|
etag
Obligatoire
|
Etag. |
|
created_time
Obligatoire
|
Heure de création de la définition. |
|
modified_time
Obligatoire
|
Heure de dernière modification de la définition. |
|
deprecated_by_dataset_id
Obligatoire
|
ID du jeu de données qui déprécie cette définition. |
|
deprecated_by_definition_version
Obligatoire
|
Version de la définition qui déprécie cette définition. |
|
data_path
Obligatoire
|
Chemin d’accès aux données. |
|
dataset
Obligatoire
|
Objet Dataset parent. |
Méthodes
| archive |
Archivez la définition du jeu de données. |
| create_snapshot |
Créez un instantané du jeu de données inscrit. |
| deprecate |
Dépréciez le jeu de données, avec un pointeur vers le nouveau jeu de données. |
| reactivate |
Réactivez la définition du jeu de données. Fonctionne sur les définitions de jeu de données qui ont été dépréciées ou archivées. |
| to_pandas_dataframe |
Créez un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données. |
| to_spark_dataframe |
Créez un DataFrame Spark qui peut exécuter le pipeline de transformation défini par ce dataflow. |
archive
Archivez la définition du jeu de données.
archive()
Retours
| Type | Description |
|---|---|
|
Aucun. |
Remarques
Après l’archivage, toute tentative de récupération du jeu de données entraîne une erreur. Si elle est archivée par accident, utilisez-la reactivate pour l’activer.
create_snapshot
Créez un instantané du jeu de données inscrit.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Paramètres
| Nom | Description |
|---|---|
|
snapshot_name
Obligatoire
|
Nom de l’instantané. Les noms d’instantanés doivent être uniques dans un jeu de données. |
|
compute_target
|
ComputeTarget ou
str
Cible de calcul pour effectuer la création du profil d’instantané. S’il est omis, le calcul local est utilisé. Valeur par défaut: None
|
|
create_data_snapshot
|
Si la valeur est True, une copie matérialisée des données est créée. Valeur par défaut: False
|
|
target_datastore
|
Magasin de données cible où enregistrer l’instantané. S’il est omis, l’instantané est créé dans le stockage par défaut de l’espace de travail. Valeur par défaut: None
|
Retours
| Type | Description |
|---|---|
|
Objet DatasetSnapshot. |
Remarques
Les captures instantanées capturent des statistiques récapitulatives de point dans le temps des données sous-jacentes et une copie facultative des données elles-mêmes. Pour en savoir plus sur la création d’instantanés, accédez à https://aka.ms/azureml/howto/createsnapshots.
deprecate
Dépréciez le jeu de données, avec un pointeur vers le nouveau jeu de données.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Paramètres
| Nom | Description |
|---|---|
|
deprecate_by_dataset_id
Obligatoire
|
ID de jeu de données qui est responsable de la dépréciation du jeu de données actuel. |
|
deprecated_by_definition_version
|
Version de la définition du jeu de données qui est responsable de la dépréciation de la définition de jeu de données actuelle. Valeur par défaut: None
|
Retours
| Type | Description |
|---|---|
|
Aucun. |
Remarques
Les définitions de jeu de données déconseillées consignent les avertissements lorsqu’ils sont consommés. Pour bloquer complètement la consommation d’une définition de jeu de données, archivez-la.
Si une définition de jeu de données est déconseillée par accident, utilisez-la reactivate pour l’activer.
reactivate
Réactivez la définition du jeu de données.
Fonctionne sur les définitions de jeu de données qui ont été dépréciées ou archivées.
reactivate()
Retours
| Type | Description |
|---|---|
|
Aucun. |
to_pandas_dataframe
Créez un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.
to_pandas_dataframe()
Retours
| Type | Description |
|---|---|
|
Un DataFrame Pandas. |
Remarques
Retourne un DataFrame Pandas entièrement matérialisé en mémoire.
to_spark_dataframe
Créez un DataFrame Spark qui peut exécuter le pipeline de transformation défini par ce dataflow.
to_spark_dataframe()
Retours
| Type | Description |
|---|---|
|
Un DataFrame Spark. |
Remarques
Le Dataframe Spark retourné n’est qu’un plan d’exécution et ne contient pas réellement de données, car les trames de données Spark sont évaluées de manière différée.