AbstractDataset Classe

Classe base de conjuntos de dados no Azure Machine Learning.

Faça referência TabularDatasetFactory à classe e FileDatasetFactory à classe para criar instâncias do conjunto de dados.

Construtor AbstractDataset de classe.

Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory classe e FileDatasetFactory classe.

Construtor

AbstractDataset()

Métodos

add_tags	Adicione pares de valor de chave ao dicionário de marcas desse conjunto de dados.
as_named_input	Forneça um nome para esse conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.
get_all	Obtenha todos os conjuntos de dados registrados no workspace.
get_by_id	Obtenha um conjunto de dados que é salvo no workspace.
get_by_name	Obtenha um conjunto de dados registrado do workspace pelo nome de registro.
get_partition_key_values	Retornar valores de chave exclusivos de partition_keys. valide se partition_keys for um subconjunto válido de conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, padrão para retornar as combinações de chave exclusivas tomando o conjunto completo de chaves de partição desse conjunto de dados se partition_keys for None `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	Registre o conjunto de dados no workspace fornecido.
remove_tags	Remova as chaves especificadas do dicionário de marcas desse conjunto de dados.
unregister_all_versions	Cancele o registro de todas as versões no nome de registro desse conjunto de dados do workspace.
update	Execute uma atualização in-loco do conjunto de dados.

add_tags

Adicione pares de valor de chave ao dicionário de marcas desse conjunto de dados.

add_tags(tags=None)

Parâmetros

Nome	Description
tags Obrigatório	dict[str, str] O dicionário de marcas a serem adicionadas.

Retornos

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto de conjunto de dados atualizado.

as_named_input

Forneça um nome para esse conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.

as_named_input(name)

Parâmetros

Nome	Description
name Obrigatório	str O nome do conjunto de dados para a execução.

Retornos

Tipo	Description
DatasetConsumptionConfig	O objeto de configuração que descreve como o conjunto de dados deve ser materializado na execução.

Comentários

O nome aqui só será aplicável dentro de uma execução do Azure Machine Learning. O nome deve conter apenas caracteres alfanuméricos e sublinhados para que possa ser disponibilizado como uma variável de ambiente. Você pode usar esse nome para recuperar o conjunto de dados no contexto de uma execução usando duas abordagens:

Variável de ambiente:

O nome será o nome da variável de ambiente e o conjunto de dados materializado será disponibilizado como o valor da variável de ambiente. Se o conjunto de dados for baixado ou montado, o valor será o caminho baixado/montado. Por exemplo:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Observação

Se o conjunto de dados estiver definido como modo direto, o valor será a ID do conjunto de dados. Em seguida, você pode

recuperar o objeto do conjunto de dados fazendo Dataset.get_by_id(os.environ['foo'])

Run.input_datasets:

Este é um dicionário em que a chave será o nome do conjunto de dados especificado neste método e o valor será o conjunto de dados materializado. Para o conjunto de dados baixado e montado, o valor será o caminho baixado/montado. Para o modo direto, o valor será o mesmo objeto de conjunto de dados especificado no script de envio de trabalho.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Obtenha todos os conjuntos de dados registrados no workspace.

static get_all(workspace)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace do AzureML existente no qual os conjuntos de dados foram registrados.

Retornos

Tipo	Description
dict[str, Union[TabularDataset, FileDataset]]	Um dicionário de objetos TabularDataset e FileDataset chaveados pelo nome de registro.

get_by_id

Obtenha um conjunto de dados que é salvo no workspace.

static get_by_id(workspace, id, **kwargs)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace do AzureML existente no qual o conjunto de dados é salvo.
id Obrigatório	str A ID do conjunto de dados.

Retornos

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto do conjunto de dados. Se o conjunto de dados for registrado, seu nome de registro e versão também serão retornados.

get_by_name

Obtenha um conjunto de dados registrado do workspace pelo nome de registro.

static get_by_name(workspace, name, version='latest', **kwargs)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace do AzureML existente no qual o conjunto de dados foi registrado.
name Obrigatório	str O nome do registro.
version Obrigatório	int A versão de registro. O padrão é 'latest'.

Retornos

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto de conjunto de dados registrado.

get_partition_key_values

Retornar valores de chave exclusivos de partition_keys.

valide se partition_keys for um subconjunto válido de conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, padrão para retornar as combinações de chave exclusivas tomando o conjunto completo de chaves de partição desse conjunto de dados se partition_keys for None


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

Parâmetros

Nome	Description
partition_keys Obrigatório	list[str] chaves de partição

register

Registre o conjunto de dados no workspace fornecido.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parâmetros

Nome	Description
workspace Obrigatório	Workspace O workspace para registrar o conjunto de dados.
name Obrigatório	str O nome com o qual registrar o conjunto de dados.
description Obrigatório	str Uma descrição de texto do conjunto de dados. O padrão é Nenhum.
tags Obrigatório	dict[str, str] Dicionário de marcas de valor de chave para fornecer o conjunto de dados. O padrão é Nenhum.
create_new_version Obrigatório	bool Booliano para registrar o conjunto de dados como uma nova versão sob o nome especificado.

Retornos

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto de conjunto de dados registrado.

remove_tags

Remova as chaves especificadas do dicionário de marcas desse conjunto de dados.

remove_tags(tags=None)

Parâmetros

Nome	Description
tags Obrigatório	list[str] A lista de chaves a serem removidas.

Retornos

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto de conjunto de dados atualizado.

unregister_all_versions

Cancele o registro de todas as versões no nome de registro desse conjunto de dados do workspace.

unregister_all_versions()

Comentários

A operação não altera nenhum dado de origem.

update

Execute uma atualização in-loco do conjunto de dados.

update(description=None, tags=None)

Parâmetros

Nome	Description
description Obrigatório	str A nova descrição a ser usada para o conjunto de dados. Essa descrição substitui a descrição existente. O padrão é a descrição existente. Para limpar a descrição, insira a cadeia de caracteres vazia.
tags Obrigatório	dict[str, str] Um dicionário de marcas com o qual atualizar o conjunto de dados. Essas marcas substituem as marcas existentes para o conjunto de dados. Padrão para marcas existentes. Para limpar marcas, insira o dicionário vazio.

Retornos

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto de conjunto de dados atualizado.

Atributos

data_changed_time

Retornar o tempo alterado dos dados de origem.

Retornos

Tipo	Description
datetime	A hora em que a alteração mais recente ocorreu com os dados de origem.

Comentários

O tempo de alteração de dados está disponível para a fonte de dados baseada em arquivo. Nenhum será retornado quando a fonte de dados não tiver suporte para verificar quando a alteração ocorreu.

description

Retorne a descrição do registro.

Retornos

Tipo	Description
str	Descrição do conjunto de dados.

id

Retorne o identificador do conjunto de dados.

Retornos

Tipo	Description
str	ID do conjunto de dados. Se o conjunto de dados não for salvo em nenhum workspace, a ID será None.

name

Retorne o nome do registro.

Retornos

Tipo	Description
str	Nome do conjunto de dados.

partition_keys

Retorne as chaves de partição.

Retornos

Tipo	Description
list[str]	as chaves de partição

Tipo	Description
str	Marcas de conjunto de dados.

version

Retorne a versão de registro.

Retornos

Tipo	Description
int	Versão do conjunto de dados.

Comentários

Esta página foi útil?

Compartilhar via

AbstractDataset Classe

Construtor

Métodos

add_tags

Parâmetros

Retornos

as_named_input

Parâmetros

Retornos

Comentários

get_all

Parâmetros

Retornos

get_by_id

Parâmetros

Retornos

get_by_name

Parâmetros

Retornos

get_partition_key_values

Parâmetros

register

Parâmetros

Retornos

remove_tags

Parâmetros

Retornos

unregister_all_versions

Comentários

update

Parâmetros

Retornos

Atributos

data_changed_time

Retornos

Comentários

description

Retornos

id

Retornos

name

Retornos

partition_keys

Retornos

tags

Retornos

version

Retornos

Comentários