data Pacote

Contém módulos que dão suporte à representação de dados para Datastore e Dataset no Azure Machine Learning.

Este pacote contém a funcionalidade principal, suporte Datastore e Dataset classes no core pacote. Os objetos de armazenamento de dados contêm informações de conexão com os serviços de armazenamento do Azure que podem ser facilmente referidos pelo nome sem a necessidade de trabalhar diretamente com ou informações de conexão de código rígido em scripts. O Datastore oferece suporte a vários serviços diferentes representados por classes neste pacote, incluindo AzureBlobDatastore, AzureFileDatastoree AzureDataLakeDatastore. Para obter uma lista completa dos serviços de armazenamento suportados, consulte a Datastore classe.

Enquanto um Datastore atua como um contêiner para seus arquivos de dados, você pode pensar em um Dataset como uma referência ou ponteiro para dados específicos que estão em seu armazenamento de dados. Os seguintes tipos de conjuntos de dados são suportados:

TabularDataset Representa dados em um formato tabular criado analisando o arquivo fornecido ou a lista de arquivos.
FileDataset faz referência a um ou vários arquivos em seus armazenamentos de dados ou URLs públicas.

Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com conjuntos de dados, consulte https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Módulos

abstract_dataset	Contém a classe base abstrata para conjuntos de dados no Azure Machine Learning.
abstract_datastore	Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão nos serviços de armazenamento do Azure.
azure_data_lake_datastore	Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão no Armazenamento do Azure Data Lake.
azure_my_sql_datastore	Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para MySQL.
azure_postgre_sql_datastore	Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão no Banco de Dados do Azure para PostgreSQL.
azure_sql_database_datastore	Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão no Banco de Dados SQL do Azure.
azure_storage_datastore	Contém funcionalidade para armazenamentos de dados que salvam informações de conexão no Blob do Azure e no armazenamento de arquivos do Azure.
constants	Constantes usadas no pacote azureml.data. Apenas para uso interno.
context_managers	Contém funcionalidade para gerenciar o contexto de dados de armazenamentos de dados e conjuntos de dados. Apenas para uso interno.
data_reference	Contém funcionalidade que define como criar referências a dados em armazenamentos de dados.
datacache	Contém funcionalidade para gerenciar DatacacheStore e Datacache no Azure Machine Learning.
datacache_client	Apenas para uso interno.
datacache_consumption_config	Contém funcionalidade para configuração de consumo de DataCache.
datacache_singularity_settings	Contém objetos necessários para a representação das configurações de Singularidade do Datacache.
datapath	Contém funcionalidade para criar referências a dados em armazenamentos de dados. Este módulo contém a DataPath classe, que representa o local dos dados, e a DataPathComputeBinding classe, que representa como os dados são disponibilizados nos destinos de computação.
dataset_action_run	Contém funcionalidade que gerencia a execução de ações do Conjunto de Dados. Este módulo fornece métodos convenientes para criar ações de conjunto de dados e obter seus resultados após a conclusão.
dataset_consumption_config	Contém funcionalidade para configuração de consumo de conjunto de dados.
dataset_definition	Contém funcionalidade para gerenciar a definição do conjunto de dados e suas operações. Observação Este módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
dataset_error_handling	Contém exceções para tratamento de erros de conjunto de dados no Aprendizado de Máquina do Azure.
dataset_factory	Contém funcionalidade para criar conjuntos de dados para o Azure Machine Learning.
dataset_profile	Classe para coletar estatísticas resumidas sobre os dados produzidos por um fluxo de dados. A funcionalidade neste módulo inclui a coleta de informações sobre qual execução produziu o perfil, se o perfil está obsoleto ou não.
dataset_profile_run	Contém a configuração para monitorar o perfil do conjunto de dados executado no Aprendizado de Máquina do Azure. A funcionalidade neste módulo inclui manipulação e monitoramento da execução do perfil do conjunto de dados associada a um objeto de experimento e id de execução individual.
dataset_profile_run_config	Contém configuração para gerar resumo de estatísticas de conjuntos de dados no Azure Machine Learning. A funcionalidade neste módulo inclui métodos para enviar a execução do perfil local ou remoto e visualizar o resultado da execução do perfil enviado.
dataset_snapshot	Contém funcionalidade para gerenciar operações de instantâneo do conjunto de dados. Observação Este módulo foi preterido. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
dataset_type_definitions	Contém valores de enumeração usados com Dataset.
datastore_client	Apenas para uso interno.
dbfs_datastore	Contém funcionalidade para armazenamentos de dados que salvam informações de conexão no Sistema de Arquivos Databricks (DBFS).
file_dataset	Contém funcionalidade para referenciar um ou vários arquivos em armazenamentos de dados ou URLs públicas. Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com um conjunto de dados de arquivo, consulte https://aka.ms/filedataset-samplenotebook.
hdfs_datastore	Contém a funcionalidade base para armazenamentos de dados que salvam informações de conexão em um cluster HDFS.
output_dataset_config	Contém configurações que especificam como as saídas de um trabalho devem ser carregadas e promovidas para um conjunto de dados. Para obter mais informações, consulte o artigo Como especificar saídas.
sql_data_reference	Contém funcionalidade para criar referências a dados em armazenamentos de dados que salvam informações de conexão em bancos de dados SQL.
stored_procedure_parameter	Contém funcionalidade para criar um parâmetro a ser passado para um procedimento armazenado SQL.
tabular_dataset	Contém funcionalidade para representar dados em um formato tabular analisando o arquivo fornecido ou a lista de arquivos. Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com um conjunto de dados tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Classes

DataType	Configura tipos de dados de coluna para um conjunto de dados criado no Azure Machine Learning. Os métodos DataType são usados nos métodos de TabularDatasetFactory classe `from_*` , que são usados para criar novos objetos TabularDataset.
DatacacheStore	Observação Esta é uma aula experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Representa uma abstração de armazenamento sobre uma conta de armazenamento do Azure Machine Learning. DatacacheStores são anexados a espaços de trabalho e são usados para armazenar informações relacionadas à solução de cache de dados subjacente. Atualmente, apenas a solução de blob particionado é suportada. Datacachestores define vários armazenamentos de dados Blob que podem ser usados para cache. Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e atualizar datacachestores. DatacacheStores para cada serviço são criados com os `register*` métodos dessa classe. Obtenha um datacachestore pelo nome. Essa chamada fará uma solicitação ao serviço de cache de dados.
FileDataset	Representa uma coleção de referências de arquivo em armazenamentos de dados ou URLs públicas para usar no Aprendizado de Máquina do Azure. Um FileDataset define uma série de operações preguiçosamente avaliadas e imutáveis para carregar dados da fonte de dados em fluxos de arquivos. Os dados não são carregados da origem até que FileDataset seja solicitado a entregar dados. Um FileDataset é criado usando o from_files método da classe FileDatasetFactory. Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com um conjunto de dados de arquivo, consulte https://aka.ms/filedataset-samplenotebook. Inicialize o objeto FileDataset. Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando FileDatasetFactory a classe.
HDFSOutputDatasetConfig	Represente como sair para um caminho HDFS e ser promovido como um FileDataset. Inicialize um HDFSOutputDatasetConfig.
LinkFileOutputDatasetConfig	Observação Esta é uma aula experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Represente como vincular a saída de uma execução e ser promovido como um FileDataset. O LinkFileOutputDatasetConfig permite vincular um conjunto de dados de arquivo como conjunto de dados de saída workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inicialize um LinkFileOutputDatasetConfig.
LinkTabularOutputDatasetConfig	Observação Esta é uma aula experimental, e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações. Represente como vincular a saída de uma execução e ser promovido como um TabularDataset. O LinkTabularOutputDatasetConfig permite vincular um arquivo tabular como conjunto de dados de saída workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inicialize um LinkTabularOutputDatasetConfig.
OutputFileDatasetConfig	Representar como copiar a saída de uma execução e ser promovido como um FileDataset. O OutputFileDatasetConfig permite especificar como deseja que um caminho local específico no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local. Um exemplo de não passar nenhum argumento: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Um exemplo de criação de uma saída e, em seguida, promovendo a saída para um conjunto de dados tabular e registrá-la com o nome foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Inicialize um OutputFileDatasetConfig. O OutputFileDatasetConfig permite especificar como deseja que um caminho local específico no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local. Um exemplo de não passar nenhum argumento: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Um exemplo de criação de uma saída e, em seguida, promovendo a saída para um conjunto de dados tabular e registrá-la com o nome foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	Representa um conjunto de dados tabular a ser usado no Aprendizado de Máquina do Azure. Um TabularDataset define uma série de operações preguiçosamente avaliadas e imutáveis para carregar dados da fonte de dados em representação tabular. Os dados não são carregados da fonte até que TabularDataset seja solicitado a fornecer dados. TabularDataset é criado usando métodos como from_delimited_files da TabularDatasetFactory classe. Para obter mais informações, consulte o artigo Add & register datasets. Para começar a trabalhar com um conjunto de dados tabular, consulte https://aka.ms/tabulardataset-samplenotebook. Inicialize um objeto TabularDataset. Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory a classe.

Feedback

Esta página foi útil?

Partilhar via

data Pacote

Módulos

Classes

Feedback