Partager via


data Paquet

Contient des modules prenant en charge la représentation des données pour le magasin de données et le jeu de données dans Azure Machine Learning.

Ce package contient des fonctionnalités de base prenant en charge Datastore et Dataset des classes dans le core package. Les objets de magasin de données contiennent des informations de connexion aux services de stockage Azure qui peuvent être facilement référencés par nom, sans avoir à travailler directement avec des informations de connexion en code dur dans des scripts. Le magasin de données prend en charge un certain nombre de services différents représentés par les classes de ce package, notamment AzureBlobDatastore, AzureFileDatastoreet AzureDataLakeDatastore. Pour obtenir la liste complète des services de stockage pris en charge, consultez la Datastore classe.

Alors qu’un magasin de données agit en tant que conteneur pour vos fichiers de données, vous pouvez considérer un jeu de données comme une référence ou un pointeur vers des données spécifiques qui se trouvent dans votre magasin de données. Les types de jeux de données suivants sont pris en charge :

  • TabularDataset représente les données dans un format tabulaire créé en analysant le fichier ou la liste de fichiers fournis.

  • FileDataset fait référence à des fichiers uniques ou multiples dans vos magasins de données ou URL publiques.

Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser des jeux de données, consultez https://aka.ms/tabulardataset-samplenotebook et https://aka.ms/filedataset-samplenotebook.

Modules

abstract_dataset

Contient la classe de base abstraite pour les jeux de données dans Azure Machine Learning.

abstract_datastore

Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans les services de stockage Azure.

azure_data_lake_datastore

Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans Azure Data Lake Storage.

azure_my_sql_datastore

Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans Azure Database pour MySQL.

azure_postgre_sql_datastore

Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans Azure Database pour PostgreSQL.

azure_sql_database_datastore

Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans azure SQL Database.

azure_storage_datastore

Contient des fonctionnalités pour les magasins de données qui enregistrent les informations de connexion dans Stockage Blob Azure et Stockage Fichier Azure.

constants

Constantes utilisées dans le package azureml.data. Utilisation interne uniquement.

context_managers

Contient des fonctionnalités permettant de gérer le contexte des données des magasins de données et des jeux de données. Utilisation interne uniquement.

data_reference

Contient des fonctionnalités qui définissent comment créer des références à des données dans des magasins de données.

datacache

Contient des fonctionnalités permettant de gérer DatacacheStore et Datacache dans Azure Machine Learning.

datacache_client

Utilisation interne uniquement.

datacache_consumption_config

Contient des fonctionnalités pour la configuration de la consommation DataCache.

datacache_singularity_settings

Contient des objets nécessaires pour la représentation des paramètres de singularité Datacache.

datapath

Contient des fonctionnalités permettant de créer des références aux données dans les magasins de données.

Ce module contient la DataPath classe, qui représente l’emplacement des données et la DataPathComputeBinding classe, qui représente la façon dont les données sont mises à disposition sur les cibles de calcul.

dataset_action_run

Contient des fonctionnalités qui gèrent l’exécution d’actions de jeu de données.

Ce module fournit des méthodes pratiques pour créer des actions de jeu de données et obtenir leurs résultats après l’achèvement.

dataset_consumption_config

Contient des fonctionnalités pour la configuration de la consommation du jeu de données.

dataset_definition

Contient des fonctionnalités permettant de gérer la définition du jeu de données et ses opérations.

Remarque

Ce module est déconseillé. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

dataset_error_handling

Contient des exceptions pour la gestion des erreurs de jeu de données dans Azure Machine Learning.

dataset_factory

Contient des fonctionnalités permettant de créer des jeux de données pour Azure Machine Learning.

dataset_profile

Classe pour collecter des statistiques récapitulatives sur les données produites par un dataflow.

La fonctionnalité de ce module inclut la collecte d’informations sur l’exécution du profil, que le profil soit obsolète ou non.

dataset_profile_run

Contient la configuration pour la surveillance du profil de jeu de données exécuté dans Azure Machine Learning.

Les fonctionnalités de ce module incluent la gestion et la surveillance de l’exécution du profil de jeu de données associées à un objet d’expérience et un ID d’exécution individuel.

dataset_profile_run_config

Contient la configuration pour générer un résumé des statistiques des jeux de données dans Azure Machine Learning.

Les fonctionnalités de ce module incluent des méthodes permettant d’envoyer une exécution de profil local ou distant et de visualiser le résultat de l’exécution du profil soumis.

dataset_snapshot

Contient des fonctionnalités permettant de gérer les opérations d’instantané de jeu de données.

Remarque

Ce module est déconseillé. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation.

dataset_type_definitions

Contient des valeurs d’énumération utilisées avec Dataset.

datastore_client

Utilisation interne uniquement.

dbfs_datastore

Contient des fonctionnalités pour les magasins de données qui enregistrent les informations de connexion dans Databricks File Sytem (DBFS).

file_dataset

Contient des fonctionnalités permettant de référencer des fichiers uniques ou multiples dans des magasins de données ou des URL publiques.

Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser un jeu de données de fichiers, consultez https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans un cluster HDFS.

output_dataset_config

Contient des configurations qui spécifient la façon dont les sorties d’un travail doivent être chargées et promues dans un jeu de données.

Pour plus d’informations, consultez l’article sur la façon de spécifier des sorties.

sql_data_reference

Contient des fonctionnalités permettant de créer des références à des données dans des magasins de données qui enregistrent les informations de connexion dans des bases de données SQL.

stored_procedure_parameter

Contient des fonctionnalités permettant de créer un paramètre à passer à une procédure stockée SQL.

tabular_dataset

Contient des fonctionnalités pour représenter des données dans un format tabulaire en analysant le fichier ou la liste de fichiers fournis.

Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser un jeu de données tabulaire, consultez https://aka.ms/tabulardataset-samplenotebook.

Classes

DataType

Configure les types de données de colonne pour un jeu de données créé dans Azure Machine Learning.

Les méthodes DataType sont utilisées dans les TabularDatasetFactory méthodes de classe from_* , qui sont utilisées pour créer de nouveaux objets TabularDataset.

DatacacheStore

Remarque

Il s’agit d’une classe expérimentale et peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Représente une abstraction de stockage sur un compte de stockage Azure Machine Learning.

Les DatacacheStores sont attachés aux espaces de travail et sont utilisés pour stocker des informations relatives à la solution datacache sous-jacente. Actuellement, seule la solution d’objets blob partitionnée est prise en charge. Datacachestores définit différents magasins de données Blob qui peuvent être utilisés pour la mise en cache.

Utilisez cette classe pour effectuer des opérations de gestion, notamment l’inscription, la liste, l’obtention et la mise à jour des magasins de données. Les DatacacheStores pour chaque service sont créés avec les register* méthodes de cette classe.

Obtenez un datacachestore par nom. Cet appel effectue une demande au service datacache.

FileDataset

Représente une collection de références de fichiers dans des magasins de données ou des URL publiques à utiliser dans Azure Machine Learning.

Un FileDataset définit une série d’opérations immuables évaluées de manière différée pour charger des données à partir de la source de données dans des flux de fichiers. Les données ne sont pas chargées à partir de la source tant que FileDataset n’est pas invité à fournir des données.

Un FileDataset est créé à l’aide de la from_files méthode de la classe FileDatasetFactory.

Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser un jeu de données de fichiers, consultez https://aka.ms/filedataset-samplenotebook.

Initialisez l’objet FileDataset.

Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de FileDatasetFactory la classe.

HDFSOutputDatasetConfig

Représente comment générer une sortie vers un chemin HDFS et être promue en tant que FileDataset.

Initialisez un HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Remarque

Il s’agit d’une classe expérimentale et peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Représente comment lier la sortie d’une exécution et être promue en tant que FileDataset.

LinkFileOutputDatasetConfig vous permet de lier un jeu de données de fichier en tant que jeu de données de sortie


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialisez un LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Remarque

Il s’agit d’une classe expérimentale et peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.

Représente comment lier la sortie d’une exécution et être promue en tant que TabularDataset.

LinkTabularOutputDatasetConfig vous permet de lier un fichier Tabulaire en tant que jeu de données de sortie


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialisez un LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Représente comment copier la sortie d’une exécution et être promue en tant que FileDataset.

OutputFileDatasetConfig vous permet de spécifier la façon dont vous souhaitez charger un chemin local particulier sur la cible de calcul vers la destination spécifiée. Si aucun argument n’est passé au constructeur, nous générerons automatiquement un nom, une destination et un chemin d’accès local.

Exemple de non-transmission d’arguments :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Exemple de création d’une sortie, puis de promotion de la sortie vers un jeu de données tabulaire et de l’inscrire avec le nom foo :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialisez un OutputFileDatasetConfig.

OutputFileDatasetConfig vous permet de spécifier la façon dont vous souhaitez charger un chemin local particulier sur la cible de calcul vers la destination spécifiée. Si aucun argument n’est passé au constructeur, nous générerons automatiquement un nom, une destination et un chemin d’accès local.

Exemple de non-transmission d’arguments :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Exemple de création d’une sortie, puis de promotion de la sortie vers un jeu de données tabulaire et de l’inscrire avec le nom foo :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Représente un jeu de données tabulaire à utiliser dans Azure Machine Learning.

Un TabularDataset définit une série d’opérations immuables évaluées de manière différée pour charger des données de la source de données dans une représentation tabulaire. Les données ne sont pas chargées à partir de la source tant que TabularDataset n’est pas invité à fournir des données.

TabularDataset est créé à l’aide de méthodes comme from_delimited_files à partir de la TabularDatasetFactory classe.

Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser un jeu de données tabulaire, consultez https://aka.ms/tabulardataset-samplenotebook.

Initialisez un objet TabularDataset.

Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de TabularDatasetFactory la classe.