Partilhar via


AbstractDataset Classe

Classe base de conjuntos de dados no Azure Machine Learning.

Faça referência TabularDatasetFactory a classe e FileDatasetFactory classe para criar instâncias de conjunto de dados.

Classe AbstractDataset construtor.

Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory classe e FileDatasetFactory classe.

Construtor

AbstractDataset()

Métodos

add_tags

Adicione pares de valores de chave ao dicionário de tags deste conjunto de dados.

as_named_input

Forneça um nome para esse conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.

get_all

Obtenha todos os conjuntos de dados registrados no espaço de trabalho.

get_by_id

Obtenha um conjunto de dados que é salvo no espaço de trabalho.

get_by_name

Obtenha um Dataset registrado do espaço de trabalho pelo seu nome de registro.

get_partition_key_values

Retornar valores de chave exclusivos de partition_keys.

validar se partition_keys é um subconjunto válido de conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, padrão para retornar as combinações de teclas exclusivas tomando o conjunto completo de chaves de partição deste conjunto de dados se partition_keys for Nenhum


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

Registre o conjunto de dados no espaço de trabalho fornecido.

remove_tags

Remova as chaves especificadas do dicionário de tags deste conjunto de dados.

unregister_all_versions

Cancele o registro de todas as versões sob o nome de registro deste conjunto de dados do espaço de trabalho.

update

Execute uma atualização in-loco do conjunto de dados.

add_tags

Adicione pares de valores de chave ao dicionário de tags deste conjunto de dados.

add_tags(tags=None)

Parâmetros

Name Description
tags
Necessário

O dicionário de tags para adicionar.

Devoluções

Tipo Description

O objeto de conjunto de dados atualizado.

as_named_input

Forneça um nome para esse conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.

as_named_input(name)

Parâmetros

Name Description
name
Necessário
str

O nome do conjunto de dados para a execução.

Devoluções

Tipo Description

O objeto de configuração que descreve como o Dataset deve ser materializado na execução.

Observações

O nome aqui só será aplicável dentro de uma execução do Azure Machine Learning. O nome deve conter apenas caracteres alfanuméricos e sublinhados para que possa ser disponibilizado como uma variável de ambiente. Você pode usar esse nome para recuperar o conjunto de dados no contexto de uma execução usando duas abordagens:

  • Variável de ambiente:

    O nome será o nome da variável de ambiente e o conjunto de dados materializado será disponibilizado como o valor da variável de ambiente. Se o conjunto de dados for baixado ou montado, o valor será o caminho baixado/montado. Por exemplo:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Observação

Se o conjunto de dados estiver definido para o modo direto, o valor será a ID do conjunto de dados. Você pode então

Recupere o objeto DataSet fazendo Dataset.get_by_id(os.environ['foo'])

  • Run.input_datasets:

    Este é um dicionário onde a chave será o nome do conjunto de dados especificado neste método e o valor será o conjunto de dados materializado. Para o conjunto de dados baixado e montado, o valor será o caminho baixado/montado. Para o modo direto, o valor será o mesmo objeto de conjunto de dados especificado no script de envio de trabalho.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Obtenha todos os conjuntos de dados registrados no espaço de trabalho.

static get_all(workspace)

Parâmetros

Name Description
workspace
Necessário

O espaço de trabalho existente do AzureML no qual os conjuntos de dados foram registrados.

Devoluções

Tipo Description

Um dicionário de objetos TabularDataset e FileDataset chaveados por seu nome de registro.

get_by_id

Obtenha um conjunto de dados que é salvo no espaço de trabalho.

static get_by_id(workspace, id, **kwargs)

Parâmetros

Name Description
workspace
Necessário

O espaço de trabalho AzureML existente no qual o Dataset é salvo.

id
Necessário
str

A id do conjunto de dados.

Devoluções

Tipo Description

O objeto do conjunto de dados. Se o conjunto de dados estiver registado, o seu nome de registo e versão também serão devolvidos.

get_by_name

Obtenha um Dataset registrado do espaço de trabalho pelo seu nome de registro.

static get_by_name(workspace, name, version='latest', **kwargs)

Parâmetros

Name Description
workspace
Necessário

O espaço de trabalho existente do AzureML no qual o Dataset foi registrado.

name
Necessário
str

O nome do registo.

version
Necessário
int

A versão de registo. O padrão é 'mais recente'.

Devoluções

Tipo Description

O objeto de conjunto de dados registrado.

get_partition_key_values

Retornar valores de chave exclusivos de partition_keys.

validar se partition_keys é um subconjunto válido de conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, padrão para retornar as combinações de teclas exclusivas tomando o conjunto completo de chaves de partição deste conjunto de dados se partition_keys for Nenhum


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

Parâmetros

Name Description
partition_keys
Necessário

chaves de partição

register

Registre o conjunto de dados no espaço de trabalho fornecido.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parâmetros

Name Description
workspace
Necessário

O espaço de trabalho para registrar o conjunto de dados.

name
Necessário
str

O nome com o qual registrar o conjunto de dados.

description
Necessário
str

Uma descrição em texto do conjunto de dados. O padrão é Nenhum.

tags
Necessário

Dicionário de tags de valor chave para fornecer o conjunto de dados. O padrão é Nenhum.

create_new_version
Necessário

Boolean para registrar o conjunto de dados como uma nova versão sob o nome especificado.

Devoluções

Tipo Description

O objeto de conjunto de dados registrado.

remove_tags

Remova as chaves especificadas do dicionário de tags deste conjunto de dados.

remove_tags(tags=None)

Parâmetros

Name Description
tags
Necessário

A lista de chaves a remover.

Devoluções

Tipo Description

O objeto de conjunto de dados atualizado.

unregister_all_versions

Cancele o registro de todas as versões sob o nome de registro deste conjunto de dados do espaço de trabalho.

unregister_all_versions()

Observações

A operação não altera nenhum dado de origem.

update

Execute uma atualização in-loco do conjunto de dados.

update(description=None, tags=None)

Parâmetros

Name Description
description
Necessário
str

A nova descrição a ser usada para o conjunto de dados. Esta descrição substitui a descrição existente. O padrão é a descrição existente. Para limpar a descrição, insira a cadeia de caracteres vazia.

tags
Necessário

Um dicionário de tags para atualizar o conjunto de dados. Essas tags substituem as tags existentes para o conjunto de dados. O padrão é para tags existentes. Para limpar tags, digite dicionário vazio.

Devoluções

Tipo Description

O objeto de conjunto de dados atualizado.

Atributos

data_changed_time

Retornar a hora alterada dos dados de origem.

Devoluções

Tipo Description

O momento em que a alteração mais recente aconteceu com os dados de origem.

Observações

A hora alterada dos dados está disponível para a fonte de dados baseada em arquivo. Nenhum será retornado quando a fonte de dados não for suportada para verificar quando a alteração ocorreu.

description

Devolve a descrição do registo.

Devoluções

Tipo Description
str

Descrição do conjunto de dados.

id

Retornar o identificador do conjunto de dados.

Devoluções

Tipo Description
str

ID do conjunto de dados. Se o conjunto de dados não for salvo em nenhum espaço de trabalho, a id será Nenhuma.

name

Devolva o nome do registo.

Devoluções

Tipo Description
str

Nome do conjunto de dados.

partition_keys

Retorne as chaves de partição.

Devoluções

Tipo Description

as chaves de partição

tags

Devolva as etiquetas de registo.

Devoluções

Tipo Description
str

Tags de conjunto de dados.

version

Devolver a versão de registo.

Devoluções

Tipo Description
int

Versão do conjunto de dados.