Dataset Classe
Représente une ressource permettant d’explorer, de transformer et de gérer des données dans Azure Machine Learning.
Un jeu de données est une référence aux données dans des Datastore URL web publiques ou derrière.
Pour les méthodes déconseillées dans cette classe, vérifiez AbstractDataset la classe pour connaître les API améliorées.
Les types de jeux de données suivants sont pris en charge :
TabularDataset représente les données dans un format tabulaire créé en analysant le fichier ou la liste de fichiers fournis.
FileDataset référence des fichiers uniques ou multiples dans des magasins de données ou à partir d’URL publiques.
Pour bien démarrer avec les jeux de données, consultez l’article Ajouter et inscrire des jeux de données, ou consultez les notebooks https://aka.ms/tabulardataset-samplenotebook et https://aka.ms/filedataset-samplenotebook.
Initialisez l’objet Dataset.
Pour obtenir un jeu de données qui a déjà été inscrit auprès de l’espace de travail, utilisez la méthode get.
Constructeur
Dataset(definition, workspace=None, name=None, id=None)
Paramètres
| Nom | Description |
|---|---|
|
definition
Obligatoire
|
<xref:azureml.data.DatasetDefinition>
Définition du jeu de données. |
|
workspace
Obligatoire
|
Espace de travail dans lequel le jeu de données existe. |
|
name
Obligatoire
|
Nom du jeu de données. |
|
id
Obligatoire
|
Identificateur unique du jeu de données. |
Remarques
La classe Dataset expose deux attributs de classe pratique (File et Tabular) que vous pouvez utiliser pour créer un jeu de données sans utiliser les méthodes de fabrique correspondantes. Par exemple, pour créer un jeu de données à l’aide de ces attributs :
Dataset.Tabular.from_delimited_files()Dataset.File.from_files()
Vous pouvez également créer un nouveau TabularDataset ou FileDataset en appelant directement les méthodes de fabrique correspondantes de la classe définie dans TabularDatasetFactory et FileDatasetFactory.
L’exemple suivant montre comment créer un TabularDataset pointant vers un chemin d’accès unique dans un magasin de données.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
L’exemple complet est disponible à partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Variables
| Nom | Description |
|---|---|
|
azureml.core.Dataset.File
|
Attribut de classe qui fournit l’accès aux méthodes FileDatasetFactory pour la création d’objets FileDataset. Utilisation : Dataset.File.from_files(). |
|
azureml.core.Dataset.Tabular
|
Attribut de classe qui fournit l’accès aux méthodes TabularDatasetFactory pour la création d’objets TabularDataset. Utilisation : Dataset.Tabular.from_delimited_files(). |
Méthodes
| archive |
Archivez un jeu de données actif ou déconseillé. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| auto_read_files |
Analyse le ou les fichiers au chemin d’accès spécifié et retourne un nouveau jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Recommandez d’utiliser les méthodes Dataset.Tabular.from_* pour lire des fichiers. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| compare_profiles |
Comparez le profil du jeu de données actuel avec un autre profil de jeu de données. Cela montre les différences dans les statistiques récapitulatives entre deux jeux de données. Le paramètre 'rhs_dataset' signifie « côté droit » et est simplement le deuxième jeu de données. Le premier jeu de données (l’objet de jeu de données actuel) est considéré comme le « côté gauche ». Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| create_snapshot |
Créez un instantané du jeu de données inscrit. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| delete_snapshot |
Supprimez l’instantané du jeu de données par nom. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| deprecate |
Dépréciez un jeu de données actif dans un espace de travail par un autre jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| diff |
Différez le jeu de données actuel avec rhs_dataset. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| from_binary_files |
Créez un jeu de données non inscrit en mémoire à partir de fichiers binaires. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Recommandez d’utiliser Dataset.File.from_files à la place. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| from_delimited_files |
Créez un jeu de données non inscrit en mémoire à partir de fichiers délimités. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Recommandez plutôt d’utiliser Dataset.Tabular.from_delimited_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
|
| from_excel_files |
Créez un jeu de données non inscrit en mémoire à partir de fichiers Excel. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| from_json_files |
Créez un jeu de données non inscrit en mémoire à partir de fichiers JSON. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Recommandez d’utiliser Dataset.Tabular.from_json_lines_files à la place pour lire à partir du fichier de lignes JSON. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| from_pandas_dataframe |
Créez un jeu de données non inscrit en mémoire à partir d’un dataframe pandas. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Recommandez plutôt d’utiliser Dataset.Tabular.register_pandas_dataframe. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| from_parquet_files |
Créez un jeu de données non inscrit en mémoire à partir de fichiers Parquet. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Recommandez plutôt d’utiliser Dataset.Tabular.from_parquet_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| from_sql_query |
Créez un jeu de données non inscrit en mémoire à partir d’une requête SQL. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Recommandez plutôt d’utiliser Dataset.Tabular.from_sql_query. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| generate_profile |
Générez un nouveau profil pour le jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| get |
Obtenez un jeu de données qui existe déjà dans l’espace de travail en spécifiant son nom ou son ID. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Recommandez d’utiliser get_by_name et get_by_id à la place. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| get_all |
Obtenez tous les jeux de données inscrits dans l’espace de travail. |
| get_all_snapshots |
Obtenez tous les instantanés du jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| get_by_id |
Obtenez un jeu de données enregistré dans l’espace de travail. |
| get_by_name |
Obtenez un jeu de données inscrit à partir de l’espace de travail par son nom d’inscription. |
| get_definition |
Obtenez une définition spécifique du jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| get_definitions |
Obtenez toutes les définitions du jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| get_profile |
Obtenez des statistiques récapitulatives sur le jeu de données calculé précédemment. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| get_snapshot |
Obtenir un instantané du jeu de données par nom. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| head |
Extrayez le nombre spécifié d’enregistrements spécifiés à partir de ce jeu de données et retournez-les sous forme de DataFrame. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| list |
Répertoriez tous les jeux de données dans l’espace de travail, y compris ceux dont Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Il est recommandé d’utiliser get_all à la place. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| reactivate |
Réactivez un jeu de données archivé ou déconseillé. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| register |
Inscrivez le jeu de données dans l’espace de travail, le rendant disponible pour d’autres utilisateurs de l’espace de travail. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Il est recommandé d’utiliser register à la place. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| sample |
Générez un nouvel exemple à partir du jeu de données source, à l’aide de la stratégie d’échantillonnage et des paramètres fournis. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Créez une TabularDataset méthode en appelant les méthodes statiques sur Dataset.Tabular et utilisez la take_sample méthode là-bas. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| to_pandas_dataframe |
Créez un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Créez une TabularDataset méthode en appelant les méthodes statiques sur Dataset.Tabular et utilisez la to_pandas_dataframe méthode là-bas. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| to_spark_dataframe |
Créez un DataFrame Spark qui peut exécuter le pipeline de transformation défini par cette définition de jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Créez une TabularDataset méthode en appelant les méthodes statiques sur Dataset.Tabular et utilisez la to_spark_dataframe méthode là-bas. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| update |
Mettez à jour les attributs mutables du jeu de données dans l’espace de travail et retournez le jeu de données mis à jour à partir de l’espace de travail. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| update_definition |
Mettez à jour la définition du jeu de données. Remarque Cette méthode est déconseillée et ne sera plus prise en charge. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
archive
Archivez un jeu de données actif ou déconseillé.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
archive()
Retours
| Type | Description |
|---|---|
|
Aucun. |
Remarques
Après l’archivage, toute tentative d’utilisation du jeu de données entraîne une erreur. Si elle est archivée par accident, réactivez-la.
auto_read_files
Analyse le ou les fichiers au chemin d’accès spécifié et retourne un nouveau jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Recommandez d’utiliser les méthodes Dataset.Tabular.from_* pour lire des fichiers. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Paramètres
| Nom | Description |
|---|---|
|
path
Obligatoire
|
DataReference ou
str
Chemin d’accès aux données dans un magasin de données inscrit, un chemin local ou une URL HTTP(CSV/TSV). |
|
include_path
Obligatoire
|
Indique s’il faut inclure une colonne contenant le chemin d’accès du fichier à partir duquel les données ont été lues. Utile lors de la lecture de plusieurs fichiers et souhaitez savoir à quel fichier un enregistrement particulier provient. Également utile s’il existe des informations dans le chemin d’accès ou le nom du fichier souhaité dans une colonne. |
|
partition_format
Obligatoire
|
Spécifiez le format de partition dans le chemin et créez des colonnes de chaîne à partir du format « {x} » et de la colonne datetime au format « {x :yyyy/MM/dd/HH/mm/ss} », où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, en fonction d’un chemin d’accès de fichier '.. /Accounts/2019/01/01/data.csv' où les données sont partitionnées par nom et heure du service, nous pouvons définir « /{Department}/{PartitionDate :yyyy/MM/dd}/data.csv' pour créer des colonnes 'Department' de type chaîne et 'PartitionDate' du type datetime. |
Retours
| Type | Description |
|---|---|
|
Objet dataset. |
Remarques
Utilisez cette méthode quand les formats de fichier et les délimiteurs sont détectés automatiquement.
Après avoir créé un jeu de données, vous devez utiliser get_profile pour répertorier les types de colonnes détectés et les statistiques récapitulatives pour chaque colonne.
Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
compare_profiles
Comparez le profil du jeu de données actuel avec un autre profil de jeu de données.
Cela montre les différences dans les statistiques récapitulatives entre deux jeux de données. Le paramètre 'rhs_dataset' signifie « côté droit » et est simplement le deuxième jeu de données. Le premier jeu de données (l’objet de jeu de données actuel) est considéré comme le « côté gauche ».
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Paramètres
| Nom | Description |
|---|---|
|
rhs_dataset
Obligatoire
|
Un deuxième jeu de données, également appelé jeu de données « côté droit » pour la comparaison. |
|
profile_arguments
Obligatoire
|
Arguments pour retriver un profil spécifique. |
|
include_columns
Obligatoire
|
Liste des noms de colonnes à inclure dans la comparaison. |
|
exclude_columns
Obligatoire
|
Liste des noms de colonnes à exclure en comparaison. |
|
histogram_compare_method
Obligatoire
|
Énumération décrivant la méthode de comparaison, ex : Wasserstein ou Energy |
Retours
| Type | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Différence entre les deux profils de jeu de données. |
Remarques
Cela concerne uniquement les jeux de données inscrits. Déclenche une exception si le profil du jeu de données actuel n’existe pas. Pour les jeux de données non inscrits, utilisez la méthode profile.compare.
create_snapshot
Créez un instantané du jeu de données inscrit.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Paramètres
| Nom | Description |
|---|---|
|
snapshot_name
Obligatoire
|
Nom de l’instantané. Les noms d’instantanés doivent être uniques dans un jeu de données. |
|
compute_target
Obligatoire
|
Cible de calcul facultative pour effectuer la création du profil d’instantané. S’il est omis, le calcul local est utilisé. |
|
create_data_snapshot
Obligatoire
|
Si la valeur est True, une copie matérialisée des données est créée. |
|
target_datastore
Obligatoire
|
Magasin de données cible pour enregistrer l’instantané. S’il est omis, l’instantané est créé dans le stockage par défaut de l’espace de travail. |
Retours
| Type | Description |
|---|---|
|
Objet d’instantané de jeu de données. |
Remarques
Les captures instantanées capturent des statistiques récapitulatives de point dans le temps des données sous-jacentes et une copie facultative des données elles-mêmes. Pour en savoir plus sur la création d’instantanés, accédez à https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Supprimez l’instantané du jeu de données par nom.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Paramètres
| Nom | Description |
|---|---|
|
snapshot_name
Obligatoire
|
Nom de l’instantané. |
Retours
| Type | Description |
|---|---|
|
Aucun. |
Remarques
Utilisez cette option pour libérer le stockage consommé par les données enregistrées dans des instantanés dont vous n’avez plus besoin.
deprecate
Dépréciez un jeu de données actif dans un espace de travail par un autre jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Paramètres
| Nom | Description |
|---|---|
|
deprecate_by_dataset_id
Obligatoire
|
ID de jeu de données qui est le remplacement prévu pour ce jeu de données. |
Retours
| Type | Description |
|---|---|
|
Aucun. |
Remarques
Les jeux de données déconseillés consignent les avertissements lorsqu’ils sont consommés. La dépréciation d’un jeu de données déprécie toutes ses définitions.
Les jeux de données déconseillés peuvent toujours être consommés. Pour empêcher complètement l’utilisation d’un jeu de données, archivez-le.
S’il est déconseillé par accident, la réactiver l’active.
diff
Différez le jeu de données actuel avec rhs_dataset.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Paramètres
| Nom | Description |
|---|---|
|
rhs_dataset
Obligatoire
|
Un autre jeu de données appelé jeu de données de droite pour la comparaison |
|
compute_target
Obligatoire
|
cible de calcul pour effectuer la différence. S’il est omis, le calcul local est utilisé. |
|
columns
Obligatoire
|
Liste des noms de colonnes à inclure dans les différences. |
Retours
| Type | Description |
|---|---|
|
Objet d’exécution d’action de jeu de données. |
from_binary_files
Créez un jeu de données non inscrit en mémoire à partir de fichiers binaires.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Recommandez d’utiliser Dataset.File.from_files à la place. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Paramètres
| Nom | Description |
|---|---|
|
path
Obligatoire
|
DataReference ou
str
Chemin d’accès aux données dans un magasin de données inscrit ou un chemin d’accès local. |
Retours
| Type | Description |
|---|---|
|
Objet Dataset. |
Remarques
Utilisez cette méthode pour lire des fichiers en tant que flux de données binaires. Renvoie un objet de flux de fichiers par lecture de fichier. Utilisez cette méthode lorsque vous lisez des images, des vidéos, de l’audio ou d’autres données binaires.
get_profile et create_snapshot ne fonctionne pas comme prévu pour un jeu de données créé par cette méthode.
Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
from_delimited_files
Créez un jeu de données non inscrit en mémoire à partir de fichiers délimités.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Recommandez plutôt d’utiliser Dataset.Tabular.from_delimited_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Paramètres
| Nom | Description |
|---|---|
|
path
Obligatoire
|
DataReference ou
str
Chemin d’accès aux données dans un magasin de données inscrit, un chemin local ou une URL HTTP. |
|
separator
Obligatoire
|
Séparateur utilisé pour fractionner des colonnes. |
|
header
Obligatoire
|
Contrôle la façon dont les en-têtes de colonne sont promus lors de la lecture à partir de fichiers. |
|
encoding
Obligatoire
|
Encodage des fichiers en cours de lecture. |
|
quoting
Obligatoire
|
Spécifiez comment gérer les nouveaux caractères de ligne entre guillemets. La valeur par défaut (False) consiste à interpréter les nouveaux caractères de ligne comme commençant de nouvelles lignes, que les nouveaux caractères de ligne soient entre guillemets ou non. Si la valeur est True, les nouveaux caractères de ligne entre guillemets ne entraînent pas de nouvelles lignes et la vitesse de lecture du fichier ralentit. |
|
infer_column_types
Obligatoire
|
Indique si les types de données de colonne sont déduits. |
|
skip_rows
Obligatoire
|
Nombre de lignes à ignorer dans le ou les fichiers en cours de lecture. |
|
skip_mode
Obligatoire
|
Contrôle la façon dont les lignes sont ignorées lors de la lecture à partir de fichiers. |
|
comment
Obligatoire
|
Caractère utilisé pour indiquer les lignes de commentaire dans les fichiers en cours de lecture. Les lignes commençant par cette chaîne sont ignorées. |
|
include_path
Obligatoire
|
Indique s’il faut inclure une colonne contenant le chemin d’accès du fichier à partir duquel les données ont été lues. Cela est utile lorsque vous lisez plusieurs fichiers et souhaitez savoir à quel fichier un enregistrement particulier provient ou pour conserver des informations utiles dans le chemin d’accès au fichier. |
|
archive_options
Obligatoire
|
<xref:azureml.dataprep.ArchiveOptions>
Options pour le fichier archive, y compris le type d’archive et le modèle glob d’entrée. Nous prenons uniquement en charge zip comme type d’archive pour le moment. Par exemple, spécification
lit tous les fichiers dont le nom se termine par «10-20.csv» dans ZIP. |
|
partition_format
Obligatoire
|
Spécifiez le format de partition dans le chemin et créez des colonnes de chaîne à partir du format « {x} » et de la colonne datetime au format « {x :yyyy/MM/dd/HH/mm/ss} », où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, en fonction d’un chemin d’accès de fichier '.. /Accounts/2019/01/01/data.csv' où les données sont partitionnées par nom et heure du service, nous pouvons définir « /{Department}/{PartitionDate :yyyy/MM/dd}/data.csv' pour créer des colonnes 'Department' de type chaîne et 'PartitionDate' du type datetime. |
Retours
| Type | Description |
|---|---|
|
Objet dataset. |
Remarques
Utilisez cette méthode pour lire les fichiers texte délimités lorsque vous souhaitez contrôler les options utilisées.
Après avoir créé un jeu de données, vous devez utiliser get_profile pour répertorier les types de colonnes détectés et les statistiques récapitulatives pour chaque colonne.
Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
from_excel_files
Créez un jeu de données non inscrit en mémoire à partir de fichiers Excel.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Paramètres
| Nom | Description |
|---|---|
|
path
Obligatoire
|
DataReference ou
str
Chemin d’accès aux données dans un magasin de données inscrit ou un chemin d’accès local. |
|
sheet_name
Obligatoire
|
Nom de la feuille Excel à charger. Par défaut, nous lisons la première feuille de chaque fichier Excel. |
|
use_column_headers
Obligatoire
|
Détermine s’il faut utiliser la première ligne en tant qu’en-têtes de colonne. |
|
skip_rows
Obligatoire
|
Nombre de lignes à ignorer dans le ou les fichiers en cours de lecture. |
|
include_path
Obligatoire
|
Indique s’il faut inclure une colonne contenant le chemin d’accès du fichier à partir duquel les données ont été lues. Cela est utile lorsque vous lisez plusieurs fichiers et souhaitez savoir à quel fichier un enregistrement particulier provient ou pour conserver des informations utiles dans le chemin d’accès au fichier. |
|
infer_column_types
Obligatoire
|
Si la valeur est true, les types de données de colonne sont déduits. |
|
partition_format
Obligatoire
|
Spécifiez le format de partition dans le chemin et créez des colonnes de chaîne à partir du format « {x} » et de la colonne datetime au format « {x :yyyy/MM/dd/HH/mm/ss} », où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, en fonction d’un chemin d’accès de fichier '.. /Accounts/2019/01/01/data.xlsx' où les données sont partitionnées par nom et heure du service, nous pouvons définir « /{Department}/{PartitionDate :yyyy/MM/dd}/data.xlsx' pour créer des colonnes 'Department' de type chaîne et 'PartitionDate' du type datetime. |
Retours
| Type | Description |
|---|---|
|
Objet dataset. |
Remarques
Utilisez cette méthode pour lire les fichiers Excel au format .xlsx. Les données peuvent être lues à partir d’une feuille dans chaque fichier Excel. Après avoir créé un jeu de données, vous devez utiliser get_profile pour répertorier les types de colonnes détectés et les statistiques récapitulatives pour chaque colonne. Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
from_json_files
Créez un jeu de données non inscrit en mémoire à partir de fichiers JSON.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Recommandez d’utiliser Dataset.Tabular.from_json_lines_files à la place pour lire à partir du fichier de lignes JSON. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Paramètres
| Nom | Description |
|---|---|
|
path
Obligatoire
|
DataReference ou
str
Chemin d’accès au ou aux dossiers que vous souhaitez charger et analyser. Il peut s’agir d’un chemin local ou d’une URL d’objet blob Azure. Globbing est pris en charge. Par exemple, vous pouvez utiliser le chemin d’accès = ./data* » pour lire tous les fichiers portant le nom commençant par « data ». |
|
encoding
Obligatoire
|
Encodage des fichiers en cours de lecture. |
|
flatten_nested_arrays
Obligatoire
|
Gestion des propriétés du programme de gestion des tableaux imbriqués. Si vous choisissez d’aplatir des tableaux JSON imbriqués, cela peut entraîner un nombre beaucoup plus élevé de lignes. |
|
include_path
Obligatoire
|
Indique s’il faut inclure une colonne contenant le chemin d’accès à partir duquel les données ont été lues. Cela est utile lorsque vous lisez plusieurs fichiers et que vous souhaiterez peut-être savoir à quel fichier un enregistrement particulier provient ou pour conserver des informations utiles dans le chemin d’accès au fichier. |
|
partition_format
Obligatoire
|
Spécifiez le format de partition dans le chemin et créez des colonnes de chaîne à partir du format « {x} » et de la colonne datetime au format « {x :yyyy/MM/dd/HH/mm/ss} », où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, en fonction d’un chemin d’accès de fichier '.. /Accounts/2019/01/01/data.json' et les données sont partitionnés par nom de service et heure, nous pouvons définir « /{Department}/{PartitionDate :yyyy/MM/dd}/data.json' pour créer des colonnes 'Department' de type chaîne et 'PartitionDate' du type datetime. |
Retours
| Type | Description |
|---|---|
|
Objet Dataset local. |
from_pandas_dataframe
Créez un jeu de données non inscrit en mémoire à partir d’un dataframe pandas.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Recommandez plutôt d’utiliser Dataset.Tabular.register_pandas_dataframe. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Paramètres
| Nom | Description |
|---|---|
|
dataframe
Obligatoire
|
DataFrame Pandas. |
|
path
Obligatoire
|
Chemin d’accès aux données dans le magasin de données inscrit ou le chemin d’accès au dossier local. |
|
in_memory
Obligatoire
|
Indique s’il faut lire le DataFrame à partir de la mémoire au lieu de conserver sur le disque. |
Retours
| Type | Description |
|---|---|
|
Objet Dataset. |
Remarques
Utilisez cette méthode pour convertir un dataframe Pandas en objet Dataset. Un jeu de données créé par cette méthode ne peut pas être inscrit, car les données proviennent de la mémoire.
Si in_memory la valeur est False, le DataFrame Pandas est converti en fichier CSV localement. Si pat elle est de type DataReference, la trame Pandas est chargée dans le magasin de données et le jeu de données est basé sur DataReference. Si « chemin » est un dossier local, le jeu de données est créé à partir du fichier local qui ne peut pas être supprimé.
Déclenche une exception si l’objet DataReference actuel n’est pas un chemin d’accès au dossier.
from_parquet_files
Créez un jeu de données non inscrit en mémoire à partir de fichiers Parquet.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Recommandez plutôt d’utiliser Dataset.Tabular.from_parquet_files. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Paramètres
| Nom | Description |
|---|---|
|
path
Obligatoire
|
DataReference ou
str
Chemin d’accès aux données dans un magasin de données inscrit ou un chemin d’accès local. |
|
include_path
Obligatoire
|
Indique s’il faut inclure une colonne contenant le chemin d’accès du fichier à partir duquel les données ont été lues. Cela est utile lorsque vous lisez plusieurs fichiers et souhaitez savoir à quel fichier un enregistrement particulier provient ou pour conserver des informations utiles dans le chemin d’accès au fichier. |
|
partition_format
Obligatoire
|
Spécifiez le format de partition dans le chemin et créez des colonnes de chaîne à partir du format « {x} » et de la colonne datetime au format « {x :yyyy/MM/dd/HH/mm/ss} », où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, en fonction d’un chemin d’accès de fichier '.. /Accounts/2019/01/data.parquet' où les données sont partitionnés par nom de service et heure, nous pouvons définir « /{Department}/{PartitionDate :yyyy/MM/dd}/data.parquet » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type datetime. |
Retours
| Type | Description |
|---|---|
|
Objet dataset. |
Remarques
Utilisez cette méthode pour lire les fichiers Parquet.
Après avoir créé un jeu de données, vous devez utiliser get_profile pour répertorier les types de colonnes détectés et les statistiques récapitulatives pour chaque colonne.
Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
from_sql_query
Créez un jeu de données non inscrit en mémoire à partir d’une requête SQL.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Recommandez plutôt d’utiliser Dataset.Tabular.from_sql_query. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Paramètres
| Nom | Description |
|---|---|
|
data_source
Obligatoire
|
Détails du magasin de données Azure SQL. |
|
query
Obligatoire
|
Requête à exécuter pour lire les données. |
Retours
| Type | Description |
|---|---|
|
Objet Dataset local. |
generate_profile
Générez un nouveau profil pour le jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Paramètres
| Nom | Description |
|---|---|
|
compute_target
Obligatoire
|
Cible de calcul facultative pour effectuer la création du profil d’instantané. S’il est omis, le calcul local est utilisé. |
|
workspace
Obligatoire
|
Espace de travail, requis pour les jeux de données temporaires (non inscrits). |
|
arguments
Obligatoire
|
Arguments de profil. Les arguments valides sont les suivants :
|
Retours
| Type | Description |
|---|---|
|
Objet d’exécution d’action de jeu de données. |
Remarques
L’appel synchrone est bloqué jusqu’à ce qu’il se termine. Appelez get_result pour obtenir le résultat de l’action.
get
Obtenez un jeu de données qui existe déjà dans l’espace de travail en spécifiant son nom ou son ID.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Recommandez d’utiliser get_by_name et get_by_id à la place. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail AzureML existant dans lequel le jeu de données a été créé. |
|
name
Obligatoire
|
Nom du jeu de données à récupérer. |
|
id
Obligatoire
|
Identificateur unique du jeu de données dans l’espace de travail. |
Retours
| Type | Description |
|---|---|
|
Jeu de données portant le nom ou l’ID spécifié. |
Remarques
Vous pouvez fournir l’une ou l’autre name ou id. Une exception est levée si :
les deux
nameetidsont spécifiés, mais ne correspondent pas.le jeu de données avec le jeu de données spécifié
nameouidintrouvable dans l’espace de travail.
get_all
Obtenez tous les jeux de données inscrits dans l’espace de travail.
get_all()
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail AzureML existant dans lequel les jeux de données ont été inscrits. |
Retours
| Type | Description |
|---|---|
|
Dictionnaire d’objets TabularDataset et FileDataset clés par leur nom d’inscription. |
get_all_snapshots
Obtenez tous les instantanés du jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_all_snapshots()
Retours
| Type | Description |
|---|---|
|
Liste des instantanés de jeu de données. |
get_by_id
Obtenez un jeu de données enregistré dans l’espace de travail.
get_by_id(id, **kwargs)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail AzureML existant dans lequel le jeu de données est enregistré. |
|
id
Obligatoire
|
ID du jeu de données. |
Retours
| Type | Description |
|---|---|
|
Objet de jeu de données. Si le jeu de données est inscrit, son nom d’inscription et sa version sont également retournés. |
get_by_name
Obtenez un jeu de données inscrit à partir de l’espace de travail par son nom d’inscription.
get_by_name(name, version='latest', **kwargs)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail AzureML existant dans lequel le jeu de données a été inscrit. |
|
name
Obligatoire
|
Nom de l’inscription. |
|
version
Obligatoire
|
Version d’inscription. La valeur par défaut est « la plus récente ». |
Retours
| Type | Description |
|---|---|
|
Objet de jeu de données inscrit. |
get_definition
Obtenez une définition spécifique du jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Paramètres
| Nom | Description |
|---|---|
|
version_id
Obligatoire
|
ID de version de la définition du jeu de données |
Retours
| Type | Description |
|---|---|
|
Définition du jeu de données. |
Remarques
Si version_id elle est fournie, Azure Machine Learning tente d’obtenir la définition correspondant à cette version. Si cette version n’existe pas, une exception est levée.
Si version_id elle est omise, la dernière version est récupérée.
get_definitions
Obtenez toutes les définitions du jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_definitions()
Retours
| Type | Description |
|---|---|
|
Dictionnaire de définitions de jeu de données. |
Remarques
Un jeu de données inscrit dans un espace de travail AzureML peut avoir plusieurs définitions, chacune créée en appelant update_definition. Chaque définition a un identificateur unique. La définition actuelle est la dernière créée.
Pour les jeux de données non inscrits, une seule définition existe.
get_profile
Obtenez des statistiques récapitulatives sur le jeu de données calculé précédemment.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Paramètres
| Nom | Description |
|---|---|
|
arguments
Obligatoire
|
Arguments de profil. |
|
generate_if_not_exist
Obligatoire
|
Indique s’il faut générer un profil s’il n’existe pas. |
|
workspace
Obligatoire
|
Espace de travail, requis pour les jeux de données temporaires (non inscrits). |
|
compute_target
Obligatoire
|
Cible de calcul pour exécuter l’action de profil. |
Retours
| Type | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
DataProfile du jeu de données. |
Remarques
Pour un jeu de données inscrit auprès d’un espace de travail Azure Machine Learning, cette méthode récupère un profil existant créé précédemment en appelant get_profile s’il est toujours valide. Les profils sont invalidés lorsque des données modifiées sont détectées dans le jeu de données ou que les arguments à get_profile utiliser diffèrent de ceux utilisés lors de la génération du profil. Si le profil n’est pas présent ou invalidé, generate_if_not_exist détermine si un nouveau profil est généré.
Pour un jeu de données qui n’est pas inscrit auprès d’un espace de travail Azure Machine Learning, cette méthode s’exécute generate_profile toujours et retourne le résultat.
get_snapshot
Obtenir un instantané du jeu de données par nom.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Paramètres
| Nom | Description |
|---|---|
|
snapshot_name
Obligatoire
|
Nom de l’instantané. |
Retours
| Type | Description |
|---|---|
|
Objet d’instantané de jeu de données. |
head
Extrayez le nombre spécifié d’enregistrements spécifiés à partir de ce jeu de données et retournez-les sous forme de DataFrame.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
head(count)
Paramètres
| Nom | Description |
|---|---|
|
count
Obligatoire
|
Nombre d’enregistrements à extraire. |
Retours
| Type | Description |
|---|---|
|
Un DataFrame Pandas. |
list
Répertoriez tous les jeux de données dans l’espace de travail, y compris ceux dont is_visible la propriété est égale à False.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Il est recommandé d’utiliser get_all à la place. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
static list(workspace)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail pour lequel vous souhaitez récupérer la liste des jeux de données. |
Retours
| Type | Description |
|---|---|
|
Liste des objets Dataset. |
reactivate
Réactivez un jeu de données archivé ou déconseillé.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
reactivate()
Retours
| Type | Description |
|---|---|
|
Aucun. |
register
Inscrivez le jeu de données dans l’espace de travail, le rendant disponible pour d’autres utilisateurs de l’espace de travail.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Il est recommandé d’utiliser register à la place. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail AzureML dans lequel le jeu de données doit être inscrit. |
|
name
Obligatoire
|
Nom du jeu de données dans l’espace de travail. |
|
description
Obligatoire
|
Description du jeu de données. |
|
tags
Obligatoire
|
Balises à associer au jeu de données. |
|
visible
Obligatoire
|
Indique si le jeu de données est visible dans l’interface utilisateur. Si la valeur est False, le jeu de données est masqué dans l’interface utilisateur et disponible via le Kit de développement logiciel (SDK). |
|
exist_ok
Obligatoire
|
Si la valeur est True, la méthode retourne le jeu de données s’il existe déjà dans l’espace de travail donné, sinon une erreur. |
|
update_if_exist
Obligatoire
|
Si |
Retours
| Type | Description |
|---|---|
|
Objet Dataset inscrit dans l’espace de travail. |
sample
Générez un nouvel exemple à partir du jeu de données source, à l’aide de la stratégie d’échantillonnage et des paramètres fournis.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Créez une TabularDataset méthode en appelant les méthodes statiques sur Dataset.Tabular et utilisez la take_sample méthode là-bas. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Paramètres
| Nom | Description |
|---|---|
|
sample_strategy
Obligatoire
|
Exemple de stratégie à utiliser. Les valeurs acceptées sont « top_n », « simple_random » ou « stratifiées ». |
|
arguments
Obligatoire
|
Dictionnaire avec des clés de l’argument « Facultatif » dans la liste indiquée ci-dessus et valeurs de la colonne « Type ». Seuls les arguments de la méthode d’échantillonnage correspondante peuvent être utilisés. Par exemple, pour un type d’exemple « simple_random », vous ne pouvez spécifier qu’un dictionnaire avec des clés « probabilité » et « seed ». |
Retours
| Type | Description |
|---|---|
|
Objet dataset en tant qu’exemple du jeu de données d’origine. |
Remarques
Les exemples sont générés en exécutant le pipeline de transformation défini par ce jeu de données, puis en appliquant la stratégie d’échantillonnage et les paramètres aux données de sortie. Chaque méthode d’échantillonnage prend en charge les arguments facultatifs suivants :
top_n
Arguments facultatifs
- n, tapez entier. Sélectionnez les lignes N supérieures comme exemple.
simple_random
Arguments facultatifs
probabilité, type float. Échantillonnage aléatoire simple où chaque ligne a une probabilité égale d’être sélectionnée. La probabilité doit être un nombre compris entre 0 et 1.
graine, type float. Utilisé par le générateur de nombres aléatoires. Utiliser pour la répétabilité.
stratifié
Arguments facultatifs
colonnes, type list[str]. Liste des colonnes de strates dans les données.
graine, type float. Utilisé par le générateur de nombres aléatoires. Utiliser pour la répétabilité.
fractions, type dict[tuple, float]. Tuple : valeurs de colonne qui définissent une couche, doivent être dans le même ordre que les noms de colonnes. Float : poids attaché à une strate pendant l’échantillonnage.
Les extraits de code suivants sont des exemples de modèles de conception pour différents exemples de méthodes.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Créez un dataframe Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Créez une TabularDataset méthode en appelant les méthodes statiques sur Dataset.Tabular et utilisez la to_pandas_dataframe méthode là-bas. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Retours
| Type | Description |
|---|---|
|
Un DataFrame Pandas. |
Remarques
Retourne un DataFrame Pandas entièrement matérialisé en mémoire.
to_spark_dataframe
Créez un DataFrame Spark qui peut exécuter le pipeline de transformation défini par cette définition de jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Créez une TabularDataset méthode en appelant les méthodes statiques sur Dataset.Tabular et utilisez la to_spark_dataframe méthode là-bas. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Retours
| Type | Description |
|---|---|
|
Un DataFrame Spark. |
Remarques
Le Dataframe Spark retourné n’est qu’un plan d’exécution et ne contient pas réellement de données, car les trames de données Spark sont évaluées de manière différée.
update
Mettez à jour les attributs mutables du jeu de données dans l’espace de travail et retournez le jeu de données mis à jour à partir de l’espace de travail.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Paramètres
| Nom | Description |
|---|---|
|
name
Obligatoire
|
Nom du jeu de données dans l’espace de travail. |
|
description
Obligatoire
|
Description des données. |
|
tags
Obligatoire
|
Balises à associer au jeu de données. |
|
visible
Obligatoire
|
Indique si le jeu de données est visible dans l’interface utilisateur. |
Retours
| Type | Description |
|---|---|
|
Objet Dataset mis à jour à partir de l’espace de travail. |
update_definition
Mettez à jour la définition du jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Paramètres
| Nom | Description |
|---|---|
|
definition
Obligatoire
|
Nouvelle définition de ce jeu de données. |
|
definition_update_message
Obligatoire
|
Message de mise à jour de définition. |
Retours
| Type | Description |
|---|---|
|
Objet Dataset mis à jour à partir de l’espace de travail. |
Remarques
Pour utiliser le jeu de données mis à jour, utilisez l’objet retourné par cette méthode.
Attributs
definition
Retourne la définition actuelle du jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Retours
| Type | Description |
|---|---|
|
Définition du jeu de données. |
Remarques
Une définition de jeu de données est une série d’étapes qui spécifient comment lire et transformer des données.
Un jeu de données inscrit dans un espace de travail AzureML peut avoir plusieurs définitions, chacune créée en appelant update_definition. Chaque définition a un identificateur unique. L’utilisation de plusieurs définitions vous permet d’apporter des modifications aux jeux de données existants sans rompre les modèles et les pipelines qui dépendent de l’ancienne définition.
Pour les jeux de données non inscrits, une seule définition existe.
definition_version
Retourne la version de la définition actuelle du jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Retours
| Type | Description |
|---|---|
|
Version de définition du jeu de données. |
Remarques
Une définition de jeu de données est une série d’étapes qui spécifient comment lire et transformer des données.
Un jeu de données inscrit dans un espace de travail AzureML peut avoir plusieurs définitions, chacune créée en appelant update_definition. Chaque définition a un identificateur unique. La définition actuelle est la dernière créée, dont l’ID est retourné par ceci.
Pour les jeux de données non inscrits, une seule définition existe.
description
Retourne la description du jeu de données.
Retours
| Type | Description |
|---|---|
|
Description du jeu de données. |
Remarques
La spécification d’une description des données dans le jeu de données permet aux utilisateurs de l’espace de travail de comprendre ce que les données représentent et comment elles peuvent l’utiliser.
id
Si le jeu de données a été inscrit dans un espace de travail, retournez l’ID du jeu de données. Sinon, retournez None.
Retours
| Type | Description |
|---|---|
|
ID du jeu de données. |
is_visible
Contrôlez la visibilité d’un jeu de données inscrit dans l’interface utilisateur de l’espace de travail Azure ML.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Retours
| Type | Description |
|---|---|
|
Visibilité du jeu de données. |
Remarques
Valeurs retournées :
True : le jeu de données est visible dans l’interface utilisateur de l’espace de travail. Par défaut.
False : Le jeu de données est masqué dans l’interface utilisateur de l’espace de travail.
N’a aucun effet sur les jeux de données non inscrits.
name
state
Retourne l’état du jeu de données.
Remarque
Cette méthode est déconseillée et ne sera plus prise en charge.
Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.
Retours
| Type | Description |
|---|---|
|
État du jeu de données. |
Remarques
La signification et l’effet des états sont les suivants :
Actif. Les définitions actives sont exactement ce qu’elles ressemblent, toutes les actions peuvent être effectuées sur des définitions actives.
Obsolète. La définition déconseillée peut être utilisée, mais un avertissement est enregistré dans les journaux chaque fois que les données sous-jacentes sont accessibles.
Archivés. Une définition archivée ne peut pas être utilisée pour effectuer une action. Pour effectuer des actions sur une définition archivée, elle doit être réactivée.
tags
workspace
Si le jeu de données a été inscrit dans un espace de travail, retournez-le. Sinon, retournez None.
Retours
| Type | Description |
|---|---|
|
Espace de travail. |