AbstractDataset Classe
Classe base de conjuntos de dados no Azure Machine Learning.
Faça referência TabularDatasetFactory a classe e FileDatasetFactory classe para criar instâncias de conjunto de dados.
Classe AbstractDataset construtor.
Este construtor não deve ser invocado diretamente. O conjunto de dados destina-se a ser criado usando TabularDatasetFactory classe e FileDatasetFactory classe.
Construtor
AbstractDataset()
Métodos
| add_tags |
Adicione pares de valores de chave ao dicionário de tags deste conjunto de dados. |
| as_named_input |
Forneça um nome para esse conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução. |
| get_all |
Obtenha todos os conjuntos de dados registrados no espaço de trabalho. |
| get_by_id |
Obtenha um conjunto de dados que é salvo no espaço de trabalho. |
| get_by_name |
Obtenha um Dataset registrado do espaço de trabalho pelo seu nome de registro. |
| get_partition_key_values |
Retornar valores de chave exclusivos de partition_keys. validar se partition_keys é um subconjunto válido de conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, padrão para retornar as combinações de teclas exclusivas tomando o conjunto completo de chaves de partição deste conjunto de dados se partition_keys for Nenhum
|
| register |
Registre o conjunto de dados no espaço de trabalho fornecido. |
| remove_tags |
Remova as chaves especificadas do dicionário de tags deste conjunto de dados. |
| unregister_all_versions |
Cancele o registro de todas as versões sob o nome de registro deste conjunto de dados do espaço de trabalho. |
| update |
Execute uma atualização in-loco do conjunto de dados. |
add_tags
Adicione pares de valores de chave ao dicionário de tags deste conjunto de dados.
add_tags(tags=None)
Parâmetros
| Name | Description |
|---|---|
|
tags
Necessário
|
O dicionário de tags para adicionar. |
Devoluções
| Tipo | Description |
|---|---|
|
O objeto de conjunto de dados atualizado. |
as_named_input
Forneça um nome para esse conjunto de dados que será usado para recuperar o conjunto de dados materializado na execução.
as_named_input(name)
Parâmetros
| Name | Description |
|---|---|
|
name
Necessário
|
O nome do conjunto de dados para a execução. |
Devoluções
| Tipo | Description |
|---|---|
|
O objeto de configuração que descreve como o Dataset deve ser materializado na execução. |
Observações
O nome aqui só será aplicável dentro de uma execução do Azure Machine Learning. O nome deve conter apenas caracteres alfanuméricos e sublinhados para que possa ser disponibilizado como uma variável de ambiente. Você pode usar esse nome para recuperar o conjunto de dados no contexto de uma execução usando duas abordagens:
Variável de ambiente:
O nome será o nome da variável de ambiente e o conjunto de dados materializado será disponibilizado como o valor da variável de ambiente. Se o conjunto de dados for baixado ou montado, o valor será o caminho baixado/montado. Por exemplo:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Observação
Se o conjunto de dados estiver definido para o modo direto, o valor será a ID do conjunto de dados. Você pode então
Recupere o objeto DataSet fazendo Dataset.get_by_id(os.environ['foo'])
Run.input_datasets:
Este é um dicionário onde a chave será o nome do conjunto de dados especificado neste método e o valor será o conjunto de dados materializado. Para o conjunto de dados baixado e montado, o valor será o caminho baixado/montado. Para o modo direto, o valor será o mesmo objeto de conjunto de dados especificado no script de envio de trabalho.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Obtenha todos os conjuntos de dados registrados no espaço de trabalho.
static get_all(workspace)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho existente do AzureML no qual os conjuntos de dados foram registrados. |
Devoluções
| Tipo | Description |
|---|---|
|
Um dicionário de objetos TabularDataset e FileDataset chaveados por seu nome de registro. |
get_by_id
Obtenha um conjunto de dados que é salvo no espaço de trabalho.
static get_by_id(workspace, id, **kwargs)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho AzureML existente no qual o Dataset é salvo. |
|
id
Necessário
|
A id do conjunto de dados. |
Devoluções
| Tipo | Description |
|---|---|
|
O objeto do conjunto de dados. Se o conjunto de dados estiver registado, o seu nome de registo e versão também serão devolvidos. |
get_by_name
Obtenha um Dataset registrado do espaço de trabalho pelo seu nome de registro.
static get_by_name(workspace, name, version='latest', **kwargs)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho existente do AzureML no qual o Dataset foi registrado. |
|
name
Necessário
|
O nome do registo. |
|
version
Necessário
|
A versão de registo. O padrão é 'mais recente'. |
Devoluções
| Tipo | Description |
|---|---|
|
O objeto de conjunto de dados registrado. |
get_partition_key_values
Retornar valores de chave exclusivos de partition_keys.
validar se partition_keys é um subconjunto válido de conjunto completo de chaves de partição, retornar valores de chave exclusivos de partition_keys, padrão para retornar as combinações de teclas exclusivas tomando o conjunto completo de chaves de partição deste conjunto de dados se partition_keys for Nenhum
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parâmetros
| Name | Description |
|---|---|
|
partition_keys
Necessário
|
chaves de partição |
register
Registre o conjunto de dados no espaço de trabalho fornecido.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parâmetros
| Name | Description |
|---|---|
|
workspace
Necessário
|
O espaço de trabalho para registrar o conjunto de dados. |
|
name
Necessário
|
O nome com o qual registrar o conjunto de dados. |
|
description
Necessário
|
Uma descrição em texto do conjunto de dados. O padrão é Nenhum. |
|
tags
Necessário
|
Dicionário de tags de valor chave para fornecer o conjunto de dados. O padrão é Nenhum. |
|
create_new_version
Necessário
|
Boolean para registrar o conjunto de dados como uma nova versão sob o nome especificado. |
Devoluções
| Tipo | Description |
|---|---|
|
O objeto de conjunto de dados registrado. |
remove_tags
Remova as chaves especificadas do dicionário de tags deste conjunto de dados.
remove_tags(tags=None)
Parâmetros
| Name | Description |
|---|---|
|
tags
Necessário
|
A lista de chaves a remover. |
Devoluções
| Tipo | Description |
|---|---|
|
O objeto de conjunto de dados atualizado. |
unregister_all_versions
Cancele o registro de todas as versões sob o nome de registro deste conjunto de dados do espaço de trabalho.
unregister_all_versions()
Observações
A operação não altera nenhum dado de origem.
update
Execute uma atualização in-loco do conjunto de dados.
update(description=None, tags=None)
Parâmetros
| Name | Description |
|---|---|
|
description
Necessário
|
A nova descrição a ser usada para o conjunto de dados. Esta descrição substitui a descrição existente. O padrão é a descrição existente. Para limpar a descrição, insira a cadeia de caracteres vazia. |
|
tags
Necessário
|
Um dicionário de tags para atualizar o conjunto de dados. Essas tags substituem as tags existentes para o conjunto de dados. O padrão é para tags existentes. Para limpar tags, digite dicionário vazio. |
Devoluções
| Tipo | Description |
|---|---|
|
O objeto de conjunto de dados atualizado. |
Atributos
data_changed_time
Retornar a hora alterada dos dados de origem.
Devoluções
| Tipo | Description |
|---|---|
|
O momento em que a alteração mais recente aconteceu com os dados de origem. |
Observações
A hora alterada dos dados está disponível para a fonte de dados baseada em arquivo. Nenhum será retornado quando a fonte de dados não for suportada para verificar quando a alteração ocorreu.
description
id
Retornar o identificador do conjunto de dados.
Devoluções
| Tipo | Description |
|---|---|
|
ID do conjunto de dados. Se o conjunto de dados não for salvo em nenhum espaço de trabalho, a id será Nenhuma. |