Partilhar via


data Pacote

Contém módulos que dão suporte à representação de dados para Datastore e Dataset no Azure Machine Learning.

Este pacote contém a funcionalidade principal, suporte Datastore e Dataset classes no core pacote. Os objetos de armazenamento de dados contêm informações de conexão com os serviços de armazenamento do Azure que podem ser facilmente referidos pelo nome sem a necessidade de trabalhar diretamente com ou informações de conexão de código rígido em scripts. O Datastore oferece suporte a vários serviços diferentes representados por classes neste pacote, incluindo AzureBlobDatastore, AzureFileDatastoree AzureDataLakeDatastore. Para obter uma lista completa dos serviços de armazenamento suportados, consulte a Datastore classe.

Enquanto um Datastore atua como um contêiner para seus arquivos de dados, você pode pensar em um Dataset como uma referência ou ponteiro para dados específicos que estão em seu armazenamento de dados. Os seguintes tipos de conjuntos de dados são suportados:

  • TabularDataset Representa dados em um formato tabular criado analisando o arquivo fornecido ou a lista de arquivos.

  • FileDataset faz referência a um ou vários arquivos em seus armazenamentos de dados ou URLs públicas.

Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com conjuntos de dados, consulte https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Módulos

abstract_dataset

Contém a classe base abstrata para conjuntos de dados no Azure Machine Learning.

abstract_datastore

Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão nos serviços de armazenamento do Azure.

azure_data_lake_datastore

Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão no Armazenamento do Azure Data Lake.

azure_my_sql_datastore

Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para MySQL.

azure_postgre_sql_datastore

Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para PostgreSQL.

azure_sql_database_datastore

Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão no Banco de Dados SQL do Azure.

azure_storage_datastore

Contém funcionalidade para armazenamentos de dados que salvam informações de conexão no Blob do Azure e no armazenamento de arquivos do Azure.

constants

Constantes usadas no pacote azureml.data. Apenas para uso interno.

context_managers

Contém funcionalidade para gerenciar o contexto de dados de armazenamentos de dados e conjuntos de dados. Apenas para uso interno.

data_reference

Contém funcionalidade que define como criar referências a dados em armazenamentos de dados.

datacache

Contém funcionalidade para gerenciar DatacacheStore e Datacache no Azure Machine Learning.

datacache_client

Apenas para uso interno.

datacache_consumption_config

Contém funcionalidade para configuração de consumo de DataCache.

datacache_singularity_settings

Contém objetos necessários para a representação das configurações de Singularidade do Datacache.

datapath

Contém funcionalidade para criar referências a dados em armazenamentos de dados.

Este módulo contém a DataPath classe, que representa o local dos dados, e a DataPathComputeBinding classe, que representa como os dados são disponibilizados nos destinos de computação.

dataset_action_run

Contém funcionalidade que gerencia a execução de ações do Conjunto de Dados.

Este módulo fornece métodos convenientes para criar ações de conjunto de dados e obter seus resultados após a conclusão.

dataset_consumption_config

Contém funcionalidade para configuração de consumo de conjunto de dados.

dataset_definition

Contém funcionalidade para gerenciar a definição do conjunto de dados e suas operações.

Observação

Este módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

dataset_error_handling

Contém exceções para tratamento de erros de conjunto de dados no Aprendizado de Máquina do Azure.

dataset_factory

Contém funcionalidade para criar conjuntos de dados para o Azure Machine Learning.

dataset_profile

Classe para coletar estatísticas resumidas sobre os dados produzidos por um fluxo de dados.

A funcionalidade neste módulo inclui a coleta de informações sobre qual execução produziu o perfil, se o perfil está obsoleto ou não.

dataset_profile_run

Contém a configuração para monitorar o perfil do conjunto de dados executado no Aprendizado de Máquina do Azure.

A funcionalidade neste módulo inclui manipulação e monitoramento da execução do perfil do conjunto de dados associada a um objeto de experimento e id de execução individual.

dataset_profile_run_config

Contém configuração para gerar resumo de estatísticas de conjuntos de dados no Azure Machine Learning.

A funcionalidade neste módulo inclui métodos para enviar a execução do perfil local ou remoto e visualizar o resultado da execução do perfil enviado.

dataset_snapshot

Contém funcionalidade para gerenciar operações de instantâneo do conjunto de dados.

Observação

Este módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

dataset_type_definitions

Contém valores de enumeração usados com Dataset.

datastore_client

Apenas para uso interno.

dbfs_datastore

Contém funcionalidade para armazenamentos de dados que salvam informações de conexão no Sistema de Arquivos Databricks (DBFS).

file_dataset

Contém funcionalidade para referenciar um ou vários arquivos em armazenamentos de dados ou URLs públicas.

Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com um conjunto de dados de arquivo, consulte https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão em um cluster HDFS.

output_dataset_config

Contém configurações que especificam como as saídas de um trabalho devem ser carregadas e promovidas para um conjunto de dados.

Para obter mais informações, consulte o artigo Como especificar saídas.

sql_data_reference

Contém funcionalidade para criar referências a dados em armazenamentos de dados que salvam informações de conexão em bancos de dados SQL.

stored_procedure_parameter

Contém funcionalidade para criar um parâmetro a ser passado para um procedimento armazenado SQL.

tabular_dataset

Contém funcionalidade para representar dados em um formato tabular analisando o arquivo fornecido ou a lista de arquivos.

Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com um conjunto de dados tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Classes

DataType

Configura tipos de dados de coluna para um conjunto de dados criado no Azure Machine Learning.

Os métodos DataType são usados nos métodos de TabularDatasetFactory classe from_* , que são usados para criar novos objetos TabularDataset.

DatacacheStore

Observação

Esta é uma aula experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Representa uma abstração de armazenamento sobre uma conta de armazenamento do Azure Machine Learning.

DatacacheStores são anexados a espaços de trabalho e são usados para armazenar informações relacionadas à solução de cache de dados subjacente. Atualmente, apenas a solução de blob particionado é suportada. Datacachestores define vários armazenamentos de dados Blob que podem ser usados para cache.

Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e atualizar datacachestores. DatacacheStores para cada serviço são criados com os register* métodos dessa classe.

Obtenha um datacachestore pelo nome. Essa chamada fará uma solicitação ao serviço de cache de dados.

FileDataset

Representa uma coleção de referências de arquivo em armazenamentos de dados ou URLs públicas para usar no Aprendizado de Máquina do Azure.

Um FileDataset define uma série de operações preguiçosamente avaliadas e imutáveis para carregar dados da fonte de dados em fluxos de arquivos. Os dados não são carregados da origem até que FileDataset seja solicitado a entregar dados.

Um FileDataset é criado usando o from_files método da classe FileDatasetFactory.

Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com um conjunto de dados de arquivo, consulte https://aka.ms/filedataset-samplenotebook.

Inicialize o objeto FileDataset.

Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando FileDatasetFactory a classe.

HDFSOutputDatasetConfig

Represente como sair para um caminho HDFS e ser promovido como um FileDataset.

Inicialize um HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Observação

Esta é uma aula experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Represente como vincular a saída de uma execução e ser promovido como um FileDataset.

O LinkFileOutputDatasetConfig permite vincular um conjunto de dados de arquivo como conjunto de dados de saída


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Observação

Esta é uma aula experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Represente como vincular a saída de uma execução e ser promovido como um TabularDataset.

O LinkTabularOutputDatasetConfig permite vincular um arquivo tabular como conjunto de dados de saída


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Representar como copiar a saída de uma execução e ser promovido como um FileDataset.

O OutputFileDatasetConfig permite especificar como deseja que um caminho local específico no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local.

Um exemplo de não passar nenhum argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Um exemplo de criação de uma saída e, em seguida, promovendo a saída para um conjunto de dados tabular e registrá-la com o nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicialize um OutputFileDatasetConfig.

O OutputFileDatasetConfig permite especificar como deseja que um caminho local específico no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local.

Um exemplo de não passar nenhum argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Um exemplo de criação de uma saída e, em seguida, promovendo a saída para um conjunto de dados tabular e registrá-la com o nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Representa um conjunto de dados tabular a ser usado no Aprendizado de Máquina do Azure.

Um TabularDataset define uma série de operações preguiçosamente avaliadas e imutáveis para carregar dados da fonte de dados em representação tabular. Os dados não são carregados da fonte até que TabularDataset seja solicitado a fornecer dados.

TabularDataset é criado usando métodos como from_delimited_files da TabularDatasetFactory classe.

Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com um conjunto de dados tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Inicialize um objeto TabularDataset.

Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory a classe.