data Paquet
Contient des modules prenant en charge la représentation des données pour le magasin de données et le jeu de données dans Azure Machine Learning.
Ce package contient des fonctionnalités de base prenant en charge Datastore et Dataset des classes dans le core package. Les objets de magasin de données contiennent des informations de connexion aux services de stockage Azure qui peuvent être facilement référencés par nom, sans avoir à travailler directement avec des informations de connexion en code dur dans des scripts. Le magasin de données prend en charge un certain nombre de services différents représentés par les classes de ce package, notamment AzureBlobDatastore, AzureFileDatastoreet AzureDataLakeDatastore. Pour obtenir la liste complète des services de stockage pris en charge, consultez la Datastore classe.
Alors qu’un magasin de données agit en tant que conteneur pour vos fichiers de données, vous pouvez considérer un jeu de données comme une référence ou un pointeur vers des données spécifiques qui se trouvent dans votre magasin de données. Les types de jeux de données suivants sont pris en charge :
TabularDataset représente les données dans un format tabulaire créé en analysant le fichier ou la liste de fichiers fournis.
FileDataset fait référence à des fichiers uniques ou multiples dans vos magasins de données ou URL publiques.
Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser des jeux de données, consultez https://aka.ms/tabulardataset-samplenotebook et https://aka.ms/filedataset-samplenotebook.
Modules
| abstract_dataset |
Contient la classe de base abstraite pour les jeux de données dans Azure Machine Learning. |
| abstract_datastore |
Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans les services de stockage Azure. |
| azure_data_lake_datastore |
Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans Azure Data Lake Storage. |
| azure_my_sql_datastore |
Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans Azure Database pour MySQL. |
| azure_postgre_sql_datastore |
Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans Azure Database pour PostgreSQL. |
| azure_sql_database_datastore |
Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans azure SQL Database. |
| azure_storage_datastore |
Contient des fonctionnalités pour les magasins de données qui enregistrent les informations de connexion dans Stockage Blob Azure et Stockage Fichier Azure. |
| constants |
Constantes utilisées dans le package azureml.data. Utilisation interne uniquement. |
| context_managers |
Contient des fonctionnalités permettant de gérer le contexte des données des magasins de données et des jeux de données. Utilisation interne uniquement. |
| data_reference |
Contient des fonctionnalités qui définissent comment créer des références à des données dans des magasins de données. |
| datacache |
Contient des fonctionnalités permettant de gérer DatacacheStore et Datacache dans Azure Machine Learning. |
| datacache_client |
Utilisation interne uniquement. |
| datacache_consumption_config |
Contient des fonctionnalités pour la configuration de la consommation DataCache. |
| datacache_singularity_settings |
Contient des objets nécessaires pour la représentation des paramètres de singularité Datacache. |
| datapath |
Contient des fonctionnalités permettant de créer des références aux données dans les magasins de données. Ce module contient la DataPath classe, qui représente l’emplacement des données et la DataPathComputeBinding classe, qui représente la façon dont les données sont mises à disposition sur les cibles de calcul. |
| dataset_action_run |
Contient des fonctionnalités qui gèrent l’exécution d’actions de jeu de données. Ce module fournit des méthodes pratiques pour créer des actions de jeu de données et obtenir leurs résultats après l’achèvement. |
| dataset_consumption_config |
Contient des fonctionnalités pour la configuration de la consommation du jeu de données. |
| dataset_definition |
Contient des fonctionnalités permettant de gérer la définition du jeu de données et ses opérations. Remarque Ce module est déconseillé. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| dataset_error_handling |
Contient des exceptions pour la gestion des erreurs de jeu de données dans Azure Machine Learning. |
| dataset_factory |
Contient des fonctionnalités permettant de créer des jeux de données pour Azure Machine Learning. |
| dataset_profile |
Classe pour collecter des statistiques récapitulatives sur les données produites par un dataflow. La fonctionnalité de ce module inclut la collecte d’informations sur l’exécution du profil, que le profil soit obsolète ou non. |
| dataset_profile_run |
Contient la configuration pour la surveillance du profil de jeu de données exécuté dans Azure Machine Learning. Les fonctionnalités de ce module incluent la gestion et la surveillance de l’exécution du profil de jeu de données associées à un objet d’expérience et un ID d’exécution individuel. |
| dataset_profile_run_config |
Contient la configuration pour générer un résumé des statistiques des jeux de données dans Azure Machine Learning. Les fonctionnalités de ce module incluent des méthodes permettant d’envoyer une exécution de profil local ou distant et de visualiser le résultat de l’exécution du profil soumis. |
| dataset_snapshot |
Contient des fonctionnalités permettant de gérer les opérations d’instantané de jeu de données. Remarque Ce module est déconseillé. Pour plus d’informations, consultez https://aka.ms/dataset-deprecation. |
| dataset_type_definitions |
Contient des valeurs d’énumération utilisées avec Dataset. |
| datastore_client |
Utilisation interne uniquement. |
| dbfs_datastore |
Contient des fonctionnalités pour les magasins de données qui enregistrent les informations de connexion dans Databricks File Sytem (DBFS). |
| file_dataset |
Contient des fonctionnalités permettant de référencer des fichiers uniques ou multiples dans des magasins de données ou des URL publiques. Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser un jeu de données de fichiers, consultez https://aka.ms/filedataset-samplenotebook. |
| hdfs_datastore |
Contient les fonctionnalités de base des magasins de données qui enregistrent les informations de connexion dans un cluster HDFS. |
| output_dataset_config |
Contient des configurations qui spécifient la façon dont les sorties d’un travail doivent être chargées et promues dans un jeu de données. Pour plus d’informations, consultez l’article sur la façon de spécifier des sorties. |
| sql_data_reference |
Contient des fonctionnalités permettant de créer des références à des données dans des magasins de données qui enregistrent les informations de connexion dans des bases de données SQL. |
| stored_procedure_parameter |
Contient des fonctionnalités permettant de créer un paramètre à passer à une procédure stockée SQL. |
| tabular_dataset |
Contient des fonctionnalités pour représenter des données dans un format tabulaire en analysant le fichier ou la liste de fichiers fournis. Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser un jeu de données tabulaire, consultez https://aka.ms/tabulardataset-samplenotebook. |
Classes
| DataType |
Configure les types de données de colonne pour un jeu de données créé dans Azure Machine Learning. Les méthodes DataType sont utilisées dans les TabularDatasetFactory méthodes de classe |
| DatacacheStore |
Remarque Il s’agit d’une classe expérimentale et peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Représente une abstraction de stockage sur un compte de stockage Azure Machine Learning. Les DatacacheStores sont attachés aux espaces de travail et sont utilisés pour stocker des informations relatives à la solution datacache sous-jacente. Actuellement, seule la solution d’objets blob partitionnée est prise en charge. Datacachestores définit différents magasins de données Blob qui peuvent être utilisés pour la mise en cache. Utilisez cette classe pour effectuer des opérations de gestion, notamment l’inscription, la liste, l’obtention et la mise à jour des magasins de données.
Les DatacacheStores pour chaque service sont créés avec les Obtenez un datacachestore par nom. Cet appel effectue une demande au service datacache. |
| FileDataset |
Représente une collection de références de fichiers dans des magasins de données ou des URL publiques à utiliser dans Azure Machine Learning. Un FileDataset définit une série d’opérations immuables évaluées de manière différée pour charger des données à partir de la source de données dans des flux de fichiers. Les données ne sont pas chargées à partir de la source tant que FileDataset n’est pas invité à fournir des données. Un FileDataset est créé à l’aide de la from_files méthode de la classe FileDatasetFactory. Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser un jeu de données de fichiers, consultez https://aka.ms/filedataset-samplenotebook. Initialisez l’objet FileDataset. Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de FileDatasetFactory la classe. |
| HDFSOutputDatasetConfig |
Représente comment générer une sortie vers un chemin HDFS et être promue en tant que FileDataset. Initialisez un HDFSOutputDatasetConfig. |
| LinkFileOutputDatasetConfig |
Remarque Il s’agit d’une classe expérimentale et peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Représente comment lier la sortie d’une exécution et être promue en tant que FileDataset. LinkFileOutputDatasetConfig vous permet de lier un jeu de données de fichier en tant que jeu de données de sortie
Initialisez un LinkFileOutputDatasetConfig. |
| LinkTabularOutputDatasetConfig |
Remarque Il s’agit d’une classe expérimentale et peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Représente comment lier la sortie d’une exécution et être promue en tant que TabularDataset. LinkTabularOutputDatasetConfig vous permet de lier un fichier Tabulaire en tant que jeu de données de sortie
Initialisez un LinkTabularOutputDatasetConfig. |
| OutputFileDatasetConfig |
Représente comment copier la sortie d’une exécution et être promue en tant que FileDataset. OutputFileDatasetConfig vous permet de spécifier la façon dont vous souhaitez charger un chemin local particulier sur la cible de calcul vers la destination spécifiée. Si aucun argument n’est passé au constructeur, nous générerons automatiquement un nom, une destination et un chemin d’accès local. Exemple de non-transmission d’arguments :
Exemple de création d’une sortie, puis de promotion de la sortie vers un jeu de données tabulaire et de l’inscrire avec le nom foo :
Initialisez un OutputFileDatasetConfig. OutputFileDatasetConfig vous permet de spécifier la façon dont vous souhaitez charger un chemin local particulier sur la cible de calcul vers la destination spécifiée. Si aucun argument n’est passé au constructeur, nous générerons automatiquement un nom, une destination et un chemin d’accès local. Exemple de non-transmission d’arguments :
Exemple de création d’une sortie, puis de promotion de la sortie vers un jeu de données tabulaire et de l’inscrire avec le nom foo :
|
| TabularDataset |
Représente un jeu de données tabulaire à utiliser dans Azure Machine Learning. Un TabularDataset définit une série d’opérations immuables évaluées de manière différée pour charger des données de la source de données dans une représentation tabulaire. Les données ne sont pas chargées à partir de la source tant que TabularDataset n’est pas invité à fournir des données. TabularDataset est créé à l’aide de méthodes comme from_delimited_files à partir de la TabularDatasetFactory classe. Pour plus d’informations, consultez l’article Ajouter et inscrire des jeux de données. Pour commencer à utiliser un jeu de données tabulaire, consultez https://aka.ms/tabulardataset-samplenotebook. Initialisez un objet TabularDataset. Ce constructeur n’est pas censé être appelé directement. Le jeu de données est destiné à être créé à l’aide de TabularDatasetFactory la classe. |