OutputFileDatasetConfig Classe
Represente como copiar a saída de uma execução e ser promovido como um FileDataset.
O OutputFileDatasetConfig permite que você especifique como deseja que um caminho local específico no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local.
Um exemplo de não passar argumentos:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Um exemplo de como criar uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registrá-la com o nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inicialize um OutputFileDatasetConfig.
O OutputFileDatasetConfig permite que você especifique como deseja que um caminho local específico no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local.
Um exemplo de não passar argumentos:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Um exemplo de como criar uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registrá-la com o nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Construtor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parâmetros
| Nome | Description |
|---|---|
|
name
Obrigatório
|
O nome da saída específica para essa execução. Isso geralmente é usado para fins de linhagem. Se definido como Nenhum, geraremos automaticamente um nome. O nome também se tornará uma variável de ambiente que contém o caminho local de onde você pode gravar seus arquivos de saída e pastas que serão carregados no destino. |
|
destination
Obrigatório
|
O destino para o qual copiar a saída. Se definido como Nenhum, copiaremos a saída para o armazenamento de dados workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, onde run-id é a ID da execução e o nome da saída é o nome de saída do parâmetro de nome acima. O destino é uma tupla em que o primeiro item é o armazenamento de dados e o segundo item é o caminho dentro do armazenamento de dados para o qual copiar os dados. O caminho dentro do armazenamento de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho regular, mas com espaços reservados dentro. Esses espaços reservados serão resolvidos no momento apropriado. A sintaxe para espaços reservados é {placeholder}, por exemplo, /path/with/{placeholder}. Atualmente, há suporte apenas para dois espaços reservados, {run-id} e {output-name}. |
|
source
Obrigatório
|
O caminho dentro do destino de computação do qual copiar os dados. Se definido como Nenhum, definiremos isso como um diretório que criamos dentro do diretório temporário do sistema operacional do destino de computação. |
|
partition_format
Obrigatório
|
Especifique o formato de partição do caminho. O padrão é Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte de formato '{column_name}' cria a coluna de cadeia de caracteres e '{column_name:yyyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'yyyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado o caminho '.. /Accounts/2019/01/01/data.parquet' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'. |
|
name
Obrigatório
|
O nome da saída específica para essa execução. Isso geralmente é usado para fins de linhagem. Se definido como Nenhum, geraremos automaticamente um nome. O nome também se tornará uma variável de ambiente que contém o caminho local de onde você pode gravar seus arquivos de saída e pastas que serão carregados no destino. |
|
destination
Obrigatório
|
O destino para o qual copiar a saída. Se definido como Nenhum, copiaremos a saída para o armazenamento de dados workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, onde run-id é a ID da execução e o nome da saída é o nome de saída do parâmetro de nome acima. O destino é uma tupla em que o primeiro item é o armazenamento de dados e o segundo item é o caminho dentro do armazenamento de dados para o qual copiar os dados. O caminho dentro do armazenamento de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho regular, mas com espaços reservados dentro. Esses espaços reservados serão resolvidos no momento apropriado. A sintaxe para espaços reservados é {placeholder}, por exemplo, /path/with/{placeholder}. Atualmente, há suporte apenas para dois espaços reservados, {run-id} e {output-name}. |
|
source
Obrigatório
|
O caminho dentro do destino de computação do qual copiar os dados. Se definido como Nenhum, definiremos isso como um diretório que criamos dentro do diretório temporário do sistema operacional do destino de computação. |
|
partition_format
Obrigatório
|
Especifique o formato de partição do caminho. O padrão é Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte de formato '{column_name}' cria a coluna de cadeia de caracteres e '{column_name:yyyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'yyyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado o caminho '.. /Accounts/2019/01/01/data.parquet' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'. |
Comentários
Você pode passar o OutputFileDatasetConfig como um argumento para sua execução e ele será convertido automaticamente no caminho local na computação. O argumento de origem será usado se um for especificado, caso contrário, geraremos automaticamente um diretório na pasta temporária do sistema operacional. Os arquivos e pastas dentro do diretório de origem serão copiados para o destino com base na configuração de saída.
Por padrão, o modo pelo qual a saída será copiada para o armazenamento de destino será definido para montagem. Para obter mais informações sobre o modo de montagem, consulte a documentação para as_mount.
Métodos
| as_input |
Especifique como consumir a saída como uma entrada nas etapas de pipeline subsequentes. |
| as_mount |
Defina o modo da saída a ser montado. Para o modo de montagem, o diretório de saída será um diretório montado do FUSE. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado. |
| as_upload |
Defina o modo da saída a ser carregada. Para o modo de carregamento, os arquivos gravados no diretório de saída serão carregados no final do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado. |
as_input
Especifique como consumir a saída como uma entrada nas etapas de pipeline subsequentes.
as_input(name=None)
Parâmetros
| Nome | Description |
|---|---|
|
name
Obrigatório
|
O nome da entrada específica para a execução. |
Retornos
| Tipo | Description |
|---|---|
|
Uma DatasetConsumptionConfig instância que descreve como fornecer os dados de entrada. |
as_mount
Defina o modo da saída a ser montado.
Para o modo de montagem, o diretório de saída será um diretório montado do FUSE. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.
as_mount(disable_metadata_cache=False)
Parâmetros
| Nome | Description |
|---|---|
|
disable_metadata_cache
Obrigatório
|
Se os metadados devem ser armazenados em cache no nó local, se desabilitado, um nó não poderá ver os arquivos gerados de outros nós durante a execução do trabalho. |
Retornos
| Tipo | Description |
|---|---|
|
Uma OutputFileDatasetConfig instância com o modo definido para montagem. |
as_upload
Defina o modo da saída a ser carregada.
Para o modo de carregamento, os arquivos gravados no diretório de saída serão carregados no final do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.
as_upload(overwrite=False, source_globs=None)
Parâmetros
| Nome | Description |
|---|---|
|
overwrite
Obrigatório
|
Se deseja substituir arquivos que já existem no destino. |
|
source_globs
Obrigatório
|
Padrões glob usados para filtrar arquivos que serão carregados. |
Retornos
| Tipo | Description |
|---|---|
|
Uma OutputFileDatasetConfig instância com o modo definido para carregar. |