data Paquete
Contiene módulos que admiten la representación de datos para el almacén de datos y el conjunto de datos en Azure Machine Learning.
Este paquete contiene funciones básicas que admiten Datastore y Dataset clases en el core paquete. Los objetos de almacén de datos contienen información de conexión a los servicios de almacenamiento de Azure a los que se puede hacer referencia fácilmente por su nombre sin necesidad de trabajar directamente con la información de conexión de código duro o en scripts. El almacén de datos admite una serie de servicios diferentes representados por clases de este paquete, incluidos AzureBlobDatastore, AzureFileDatastorey AzureDataLakeDatastore. Para obtener una lista completa de los servicios de almacenamiento admitidos, consulte la Datastore clase .
Aunque un almacén de datos actúa como contenedor para los archivos de datos, puede considerar un conjunto de datos como referencia o puntero a datos específicos que se encuentra en el almacén de datos. Se admiten los siguientes tipos de conjuntos de datos:
TabularDataset representa los datos en un formato tabular creado mediante el análisis del archivo o la lista de archivos proporcionados.
FileDataset hace referencia a uno o varios archivos en los almacenes de datos o direcciones URL públicas.
Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con conjuntos de datos, consulte https://aka.ms/tabulardataset-samplenotebook y https://aka.ms/filedataset-samplenotebook.
Módulos
| abstract_dataset |
Contiene la clase base abstracta para conjuntos de datos en Azure Machine Learning. |
| abstract_datastore |
Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión a los servicios de almacenamiento de Azure. |
| azure_data_lake_datastore |
Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión en Azure Data Lake Storage. |
| azure_my_sql_datastore |
Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión en Azure Database for MySQL. |
| azure_postgre_sql_datastore |
Contiene la funcionalidad base de los almacenes de datos que guardan la información de conexión a Azure Database for PostgreSQL. |
| azure_sql_database_datastore |
Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión en Azure SQL Database. |
| azure_storage_datastore |
Contiene la funcionalidad de los almacenes de datos que guardan información de conexión en Azure Blob y Azure File Storage. |
| constants |
Constantes usadas en el paquete azureml.data. Solo para uso interno. |
| context_managers |
Contiene funcionalidad para administrar el contexto de datos de los almacenes de datos y los conjuntos de datos. Solo para uso interno. |
| data_reference |
Contiene la funcionalidad que define cómo crear referencias a datos en almacenes de datos. |
| datacache |
Contiene funcionalidad para administrar DatacacheStore y Datacache en Azure Machine Learning. |
| datacache_client |
Solo para uso interno. |
| datacache_consumption_config |
Contiene la funcionalidad de la configuración de consumo de DataCache. |
| datacache_singularity_settings |
Contiene objetos necesarios para la representación de la configuración de la singularidad de Datacache. |
| datapath |
Contiene la funcionalidad para crear referencias a datos en almacenes de datos. Este módulo contiene la DataPath clase , que representa la ubicación de los datos y la DataPathComputeBinding clase , que representa cómo están disponibles los datos en los destinos de proceso. |
| dataset_action_run |
Contiene la funcionalidad que administra la ejecución de acciones del conjunto de datos. Este módulo proporciona métodos útiles para crear acciones del conjunto de datos y obtener sus resultados después de la finalización. |
| dataset_consumption_config |
Contiene la funcionalidad de la configuración de consumo del conjunto de datos. |
| dataset_definition |
Contiene funcionalidad para administrar la definición del conjunto de datos y sus operaciones. Nota: Este módulo está en desuso. Para obtener más información, consulte https://aka.ms/dataset-deprecation. |
| dataset_error_handling |
Contiene excepciones para el control de errores del conjunto de datos en Azure Machine Learning. |
| dataset_factory |
Contiene la funcionalidad para crear conjuntos de datos para Azure Machine Learning. |
| dataset_profile |
Clase para recopilar estadísticas de resumen de los datos generados por un flujo de datos. La funcionalidad de este módulo incluye la recopilación de información relacionada con la ejecución que generó el perfil, independientemente de si el perfil está obsoleto o no. |
| dataset_profile_run |
Contiene la configuración para supervisar la ejecución del perfil del conjunto de datos en Azure Machine Learning. La funcionalidad de este módulo incluye la administración y supervisión de la ejecución del perfil de conjunto de datos asociado a un objeto de experimento y un identificador de ejecución individual. |
| dataset_profile_run_config |
Contiene la configuración para generar el resumen de estadísticas de los conjuntos de datos en Azure Machine Learning. La funcionalidad de este módulo incluye métodos para enviar la ejecución de perfiles locales o remotos y visualizar el resultado de la ejecución del perfil enviado. |
| dataset_snapshot |
Contiene la funcionalidad para administrar las operaciones de instantáneas del conjunto de datos. Nota: Este módulo está en desuso. Para obtener más información, consulte https://aka.ms/dataset-deprecation. |
| dataset_type_definitions |
Contiene valores de enumeración usados con Dataset. |
| datastore_client |
Solo para uso interno. |
| dbfs_datastore |
Contiene la funcionalidad de los almacenes de datos que guardan información de conexión en databricks File Sytem (DBFS). |
| file_dataset |
Contiene funcionalidad para hacer referencia a uno o varios archivos en almacenes de datos o direcciones URL públicas. Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos de archivos, consulte https://aka.ms/filedataset-samplenotebook. |
| hdfs_datastore |
Contiene la funcionalidad base de los almacenes de datos que guardan información de conexión en un clúster de HDFS. |
| output_dataset_config |
Contiene configuraciones que especifican cómo se deben cargar y promocionar las salidas de un trabajo a un conjunto de datos. Para obtener más información, consulte el artículo sobre cómo especificar salidas. |
| sql_data_reference |
Contiene funcionalidad para crear referencias a datos en almacenes de datos que guardan información de conexión en bases de datos SQL. |
| stored_procedure_parameter |
Contiene la funcionalidad para crear un parámetro que se va a pasar a un procedimiento almacenado de SQL. |
| tabular_dataset |
Contiene la funcionalidad para representar datos en un formato tabular mediante el análisis del archivo o la lista de archivos proporcionados. Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos tabular, consulte https://aka.ms/tabulardataset-samplenotebook. |
Clases
| DataType |
Configura los tipos de datos de columna para un conjunto de datos creado en Azure Machine Learning. Los métodos DataType se usan en los TabularDatasetFactory métodos de clase |
| DatacacheStore |
Nota: Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Representa una abstracción de almacenamiento a través de una cuenta de almacenamiento de Azure Machine Learning. DatacacheStores se adjuntan a áreas de trabajo y se usan para almacenar información relacionada con la solución datacache subyacente. Actualmente, solo se admite la solución de blobs con particiones. Datacachestores define varios almacenes de datos de blobs que se pueden usar para el almacenamiento en caché. Use esta clase para realizar operaciones de administración, como registrar, enumerar, obtener y actualizar datacachestores.
DatacacheStores para cada servicio se crean con los Obtenga un almacén de datacache por nombre. Esta llamada realizará una solicitud al servicio datacache. |
| FileDataset |
Representa una colección de referencias de archivo en almacenes de datos o direcciones URL públicas que se van a usar en Azure Machine Learning. Un Objeto FileDataset define una serie de operaciones inmutables y diferidamente evaluadas para cargar datos del origen de datos en flujos de archivos. Los datos no se cargan desde el origen hasta que se pide a FileDataset que entreguen datos. FileDataset se crea mediante el from_files método de la clase FileDatasetFactory. Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos de archivos, consulte https://aka.ms/filedataset-samplenotebook. Inicialice el objeto FileDataset. Este constructor no se supone que se invoque directamente. El conjunto de datos está pensado para crearse mediante FileDatasetFactory la clase . |
| HDFSOutputDatasetConfig |
Representa cómo se genera una ruta de acceso de HDFS y se promueve como fileDataset. Inicialice un HDFSOutputDatasetConfig. |
| LinkFileOutputDatasetConfig |
Nota: Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Representa cómo vincular la salida de una ejecución y promoverse como un objeto FileDataset. LinkFileOutputDatasetConfig permite vincular un conjunto de datos de archivo como conjunto de datos de salida.
Inicialice un linkFileOutputDatasetConfig. |
| LinkTabularOutputDatasetConfig |
Nota: Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Representa cómo vincular la salida de una ejecución y promoverse como tabularDataset. LinkTabularOutputDatasetConfig permite vincular un archivo tabular como conjunto de datos de salida.
Inicialice un linkTabularOutputDatasetConfig. |
| OutputFileDatasetConfig |
Representa cómo copiar la salida de una ejecución y promocionarse como un objeto FileDataset. OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino de proceso. Si no se pasan argumentos al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local. Un ejemplo de no pasar ningún argumento:
Un ejemplo de cómo crear una salida y, a continuación, promover la salida a un conjunto de datos tabular y registrarla con el nombre foo:
Inicialice outputFileDatasetConfig. OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino de proceso. Si no se pasan argumentos al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local. Un ejemplo de no pasar ningún argumento:
Un ejemplo de cómo crear una salida y, a continuación, promover la salida a un conjunto de datos tabular y registrarla con el nombre foo:
|
| TabularDataset |
Representa un conjunto de datos tabular que se va a usar en Azure Machine Learning. TabularDataset define una serie de operaciones inmutables evaluadas de forma diferida para cargar datos del origen de datos en una representación tabular. Los datos no se cargan desde el origen hasta que se pide a TabularDataset que entreguen datos. TabularDataset se crea mediante métodos como from_delimited_files desde la TabularDatasetFactory clase . Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos tabular, consulte https://aka.ms/tabulardataset-samplenotebook. Inicialice un objeto TabularDataset. Este constructor no se supone que se invoque directamente. El conjunto de datos está pensado para crearse mediante TabularDatasetFactory la clase . |