Compartir a través de


data Paquete

Contiene módulos que admiten la representación de datos para el almacén de datos y el conjunto de datos en Azure Machine Learning.

Este paquete contiene funciones básicas que admiten Datastore y Dataset clases en el core paquete. Los objetos de almacén de datos contienen información de conexión a los servicios de almacenamiento de Azure a los que se puede hacer referencia fácilmente por su nombre sin necesidad de trabajar directamente con la información de conexión de código duro o en scripts. El almacén de datos admite una serie de servicios diferentes representados por clases de este paquete, incluidos AzureBlobDatastore, AzureFileDatastorey AzureDataLakeDatastore. Para obtener una lista completa de los servicios de almacenamiento admitidos, consulte la Datastore clase .

Aunque un almacén de datos actúa como contenedor para los archivos de datos, puede considerar un conjunto de datos como referencia o puntero a datos específicos que se encuentra en el almacén de datos. Se admiten los siguientes tipos de conjuntos de datos:

  • TabularDataset representa los datos en un formato tabular creado mediante el análisis del archivo o la lista de archivos proporcionados.

  • FileDataset hace referencia a uno o varios archivos en los almacenes de datos o direcciones URL públicas.

Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con conjuntos de datos, consulte https://aka.ms/tabulardataset-samplenotebook y https://aka.ms/filedataset-samplenotebook.

Módulos

abstract_dataset

Contiene la clase base abstracta para conjuntos de datos en Azure Machine Learning.

abstract_datastore

Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión a los servicios de almacenamiento de Azure.

azure_data_lake_datastore

Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión en Azure Data Lake Storage.

azure_my_sql_datastore

Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión en Azure Database for MySQL.

azure_postgre_sql_datastore

Contiene la funcionalidad base de los almacenes de datos que guardan la información de conexión a Azure Database for PostgreSQL.

azure_sql_database_datastore

Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión en Azure SQL Database.

azure_storage_datastore

Contiene la funcionalidad de los almacenes de datos que guardan información de conexión en Azure Blob y Azure File Storage.

constants

Constantes usadas en el paquete azureml.data. Solo para uso interno.

context_managers

Contiene funcionalidad para administrar el contexto de datos de los almacenes de datos y los conjuntos de datos. Solo para uso interno.

data_reference

Contiene la funcionalidad que define cómo crear referencias a datos en almacenes de datos.

datacache

Contiene funcionalidad para administrar DatacacheStore y Datacache en Azure Machine Learning.

datacache_client

Solo para uso interno.

datacache_consumption_config

Contiene la funcionalidad de la configuración de consumo de DataCache.

datacache_singularity_settings

Contiene objetos necesarios para la representación de la configuración de la singularidad de Datacache.

datapath

Contiene la funcionalidad para crear referencias a datos en almacenes de datos.

Este módulo contiene la DataPath clase , que representa la ubicación de los datos y la DataPathComputeBinding clase , que representa cómo están disponibles los datos en los destinos de proceso.

dataset_action_run

Contiene la funcionalidad que administra la ejecución de acciones del conjunto de datos.

Este módulo proporciona métodos útiles para crear acciones del conjunto de datos y obtener sus resultados después de la finalización.

dataset_consumption_config

Contiene la funcionalidad de la configuración de consumo del conjunto de datos.

dataset_definition

Contiene funcionalidad para administrar la definición del conjunto de datos y sus operaciones.

Nota:

Este módulo está en desuso. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

dataset_error_handling

Contiene excepciones para el control de errores del conjunto de datos en Azure Machine Learning.

dataset_factory

Contiene la funcionalidad para crear conjuntos de datos para Azure Machine Learning.

dataset_profile

Clase para recopilar estadísticas de resumen de los datos generados por un flujo de datos.

La funcionalidad de este módulo incluye la recopilación de información relacionada con la ejecución que generó el perfil, independientemente de si el perfil está obsoleto o no.

dataset_profile_run

Contiene la configuración para supervisar la ejecución del perfil del conjunto de datos en Azure Machine Learning.

La funcionalidad de este módulo incluye la administración y supervisión de la ejecución del perfil de conjunto de datos asociado a un objeto de experimento y un identificador de ejecución individual.

dataset_profile_run_config

Contiene la configuración para generar el resumen de estadísticas de los conjuntos de datos en Azure Machine Learning.

La funcionalidad de este módulo incluye métodos para enviar la ejecución de perfiles locales o remotos y visualizar el resultado de la ejecución del perfil enviado.

dataset_snapshot

Contiene la funcionalidad para administrar las operaciones de instantáneas del conjunto de datos.

Nota:

Este módulo está en desuso. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

dataset_type_definitions

Contiene valores de enumeración usados con Dataset.

datastore_client

Solo para uso interno.

dbfs_datastore

Contiene la funcionalidad de los almacenes de datos que guardan información de conexión en databricks File Sytem (DBFS).

file_dataset

Contiene funcionalidad para hacer referencia a uno o varios archivos en almacenes de datos o direcciones URL públicas.

Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos de archivos, consulte https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión en un clúster de HDFS.

output_dataset_config

Contiene configuraciones que especifican cómo se deben cargar y promocionar las salidas de un trabajo a un conjunto de datos.

Para obtener más información, consulte el artículo sobre cómo especificar salidas.

sql_data_reference

Contiene funcionalidad para crear referencias a datos en almacenes de datos que guardan información de conexión en bases de datos SQL.

stored_procedure_parameter

Contiene la funcionalidad para crear un parámetro que se va a pasar a un procedimiento almacenado de SQL.

tabular_dataset

Contiene la funcionalidad para representar datos en un formato tabular mediante el análisis del archivo o la lista de archivos proporcionados.

Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Clases

DataType

Configura los tipos de datos de columna para un conjunto de datos creado en Azure Machine Learning.

Los métodos DataType se usan en los TabularDatasetFactory métodos de clase from_* , que se usan para crear nuevos objetos TabularDataset.

DatacacheStore

Nota:

Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Representa una abstracción de almacenamiento a través de una cuenta de almacenamiento de Azure Machine Learning.

DatacacheStores se adjuntan a áreas de trabajo y se usan para almacenar información relacionada con la solución datacache subyacente. Actualmente, solo se admite la solución de blobs con particiones. Datacachestores define varios almacenes de datos de blobs que se pueden usar para el almacenamiento en caché.

Use esta clase para realizar operaciones de administración, como registrar, enumerar, obtener y actualizar datacachestores. DatacacheStores para cada servicio se crean con los register* métodos de esta clase.

Obtenga un almacén de datacache por nombre. Esta llamada realizará una solicitud al servicio datacache.

FileDataset

Representa una colección de referencias de archivo en almacenes de datos o direcciones URL públicas que se van a usar en Azure Machine Learning.

Un Objeto FileDataset define una serie de operaciones inmutables y diferidamente evaluadas para cargar datos del origen de datos en flujos de archivos. Los datos no se cargan desde el origen hasta que se pide a FileDataset que entreguen datos.

FileDataset se crea mediante el from_files método de la clase FileDatasetFactory.

Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos de archivos, consulte https://aka.ms/filedataset-samplenotebook.

Inicialice el objeto FileDataset.

Este constructor no se supone que se invoque directamente. El conjunto de datos está pensado para crearse mediante FileDatasetFactory la clase .

HDFSOutputDatasetConfig

Representa cómo se genera una ruta de acceso de HDFS y se promueve como fileDataset.

Inicialice un HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Nota:

Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Representa cómo vincular la salida de una ejecución y promoverse como un objeto FileDataset.

LinkFileOutputDatasetConfig permite vincular un conjunto de datos de archivo como conjunto de datos de salida.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialice un linkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Nota:

Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Representa cómo vincular la salida de una ejecución y promoverse como tabularDataset.

LinkTabularOutputDatasetConfig permite vincular un archivo tabular como conjunto de datos de salida.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialice un linkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Representa cómo copiar la salida de una ejecución y promocionarse como un objeto FileDataset.

OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino de proceso. Si no se pasan argumentos al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.

Un ejemplo de no pasar ningún argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Un ejemplo de cómo crear una salida y, a continuación, promover la salida a un conjunto de datos tabular y registrarla con el nombre foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicialice outputFileDatasetConfig.

OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino de proceso. Si no se pasan argumentos al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.

Un ejemplo de no pasar ningún argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Un ejemplo de cómo crear una salida y, a continuación, promover la salida a un conjunto de datos tabular y registrarla con el nombre foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Representa un conjunto de datos tabular que se va a usar en Azure Machine Learning.

TabularDataset define una serie de operaciones inmutables evaluadas de forma diferida para cargar datos del origen de datos en una representación tabular. Los datos no se cargan desde el origen hasta que se pide a TabularDataset que entreguen datos.

TabularDataset se crea mediante métodos como from_delimited_files desde la TabularDatasetFactory clase .

Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Inicialice un objeto TabularDataset.

Este constructor no se supone que se invoque directamente. El conjunto de datos está pensado para crearse mediante TabularDatasetFactory la clase .