OutputFileDatasetConfig Classe
Représente comment copier la sortie d’une exécution et être promue en tant que FileDataset.
OutputFileDatasetConfig vous permet de spécifier la façon dont vous souhaitez charger un chemin local particulier sur la cible de calcul vers la destination spécifiée. Si aucun argument n’est passé au constructeur, nous générerons automatiquement un nom, une destination et un chemin d’accès local.
Exemple de non-transmission d’arguments :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Exemple de création d’une sortie, puis de promotion de la sortie vers un jeu de données tabulaire et de l’inscrire avec le nom foo :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Initialisez un OutputFileDatasetConfig.
OutputFileDatasetConfig vous permet de spécifier la façon dont vous souhaitez charger un chemin local particulier sur la cible de calcul vers la destination spécifiée. Si aucun argument n’est passé au constructeur, nous générerons automatiquement un nom, une destination et un chemin d’accès local.
Exemple de non-transmission d’arguments :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Exemple de création d’une sortie, puis de promotion de la sortie vers un jeu de données tabulaire et de l’inscrire avec le nom foo :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Constructeur
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Paramètres
| Nom | Description |
|---|---|
|
name
Obligatoire
|
Nom de la sortie spécifique à cette exécution. Cela est généralement utilisé à des fins de traçabilité. Si la valeur Est None, nous générerons automatiquement un nom. Le nom devient également une variable d’environnement qui contient le chemin d’accès local de l’emplacement où vous pouvez écrire vos fichiers et dossiers de sortie dans lesquels vous allez être chargé dans la destination. |
|
destination
Obligatoire
|
Destination vers laquelle copier la sortie. Si la valeur est None, nous allons copier la sortie dans le magasin de données workspaceblobstore, sous le chemin /dataset/{run-id}/{output-name}, où l’ID d’exécution est l’ID de l’exécution et le nom de sortie est le nom de sortie du paramètre de nom ci-dessus. La destination est un tuple dans lequel le premier élément est le magasin de données et le deuxième élément est le chemin d’accès du magasin de données vers lequel copier les données. Le chemin d’accès au sein du magasin de données peut être un chemin d’accès de modèle. Un chemin d’accès de modèle n’est qu’un chemin normal, mais avec des espaces réservés à l’intérieur. Ces espaces réservés seront ensuite résolus au moment approprié. La syntaxe des espaces réservés est {placeholder}, par exemple , /path/with/{placeholder}. Actuellement, seuls deux espaces réservés sont pris en charge, {run-id} et {output-name}. |
|
source
Obligatoire
|
Chemin d’accès dans la cible de calcul à partir duquel copier les données. Si la valeur Est None, nous allons définir cette valeur sur un répertoire que nous créons dans le répertoire temporaire du système d’exploitation de la cible de calcul. |
|
partition_format
Obligatoire
|
Spécifiez le format de partition du chemin d’accès. La valeur par défaut est Aucun. Les informations de partition de chaque chemin d’accès sont extraites dans des colonnes en fonction du format spécifié. La partie format « {column_name} » crée une colonne de chaîne et « {column_name :aaaa/MM/mm/mm/ss} » crée une colonne datetime, où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin d’accès '.. /Accounts/2019/01/data.parquet' où la partition est par nom et heure du service, partition_format='/{Department}/{PartitionDate :yyyy/MM/dd}/data.parquet' crée une colonne de chaîne 'Department' avec la valeur 'Accounts' et une colonne datetime 'PartitionDate' avec la valeur '2019-01-01'. |
|
name
Obligatoire
|
Nom de la sortie spécifique à cette exécution. Cela est généralement utilisé à des fins de traçabilité. Si la valeur Est None, nous générerons automatiquement un nom. Le nom devient également une variable d’environnement qui contient le chemin d’accès local de l’emplacement où vous pouvez écrire vos fichiers et dossiers de sortie dans lesquels vous allez être chargé dans la destination. |
|
destination
Obligatoire
|
Destination vers laquelle copier la sortie. Si la valeur est None, nous allons copier la sortie dans le magasin de données workspaceblobstore, sous le chemin /dataset/{run-id}/{output-name}, où l’ID d’exécution est l’ID de l’exécution et le nom de sortie est le nom de sortie du paramètre de nom ci-dessus. La destination est un tuple dans lequel le premier élément est le magasin de données et le deuxième élément est le chemin d’accès du magasin de données vers lequel copier les données. Le chemin d’accès au sein du magasin de données peut être un chemin d’accès de modèle. Un chemin d’accès de modèle n’est qu’un chemin normal, mais avec des espaces réservés à l’intérieur. Ces espaces réservés seront ensuite résolus au moment approprié. La syntaxe des espaces réservés est {placeholder}, par exemple , /path/with/{placeholder}. Actuellement, seuls deux espaces réservés sont pris en charge, {run-id} et {output-name}. |
|
source
Obligatoire
|
Chemin d’accès dans la cible de calcul à partir duquel copier les données. Si la valeur Est None, nous allons définir cette valeur sur un répertoire que nous créons dans le répertoire temporaire du système d’exploitation de la cible de calcul. |
|
partition_format
Obligatoire
|
Spécifiez le format de partition du chemin d’accès. La valeur par défaut est Aucun. Les informations de partition de chaque chemin d’accès sont extraites dans des colonnes en fonction du format spécifié. La partie format « {column_name} » crée une colonne de chaîne et « {column_name :aaaa/MM/mm/mm/ss} » crée une colonne datetime, où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin d’accès '.. /Accounts/2019/01/data.parquet' où la partition est par nom et heure du service, partition_format='/{Department}/{PartitionDate :yyyy/MM/dd}/data.parquet' crée une colonne de chaîne 'Department' avec la valeur 'Accounts' et une colonne datetime 'PartitionDate' avec la valeur '2019-01-01'. |
Remarques
Vous pouvez transmettre le OutputFileDatasetConfig en tant qu’argument à votre exécution, et il sera automatiquement traduit en chemin local sur le calcul. L’argument source est utilisé si l’un d’eux est spécifié ; sinon, nous générerons automatiquement un répertoire dans le dossier temporaire du système d’exploitation. Les fichiers et dossiers à l’intérieur du répertoire source seront ensuite copiés vers la destination en fonction de la configuration de sortie.
Par défaut, le mode par lequel la sortie sera copiée dans le stockage de destination sera défini sur montage. Pour plus d’informations sur le mode montage, consultez la documentation relative à as_mount.
Méthodes
| as_input |
Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes. |
| as_mount |
Définissez le mode de la sortie à monter. Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé. |
| as_upload |
Définissez le mode de sortie à charger. Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé. |
as_input
Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.
as_input(name=None)
Paramètres
| Nom | Description |
|---|---|
|
name
Obligatoire
|
Nom de l’entrée spécifique à l’exécution. |
Retours
| Type | Description |
|---|---|
|
Instance DatasetConsumptionConfig décrivant comment fournir les données d’entrée. |
as_mount
Définissez le mode de la sortie à monter.
Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé.
as_mount(disable_metadata_cache=False)
Paramètres
| Nom | Description |
|---|---|
|
disable_metadata_cache
Obligatoire
|
Indique s’il faut mettre en cache les métadonnées dans un nœud local, si un nœud est désactivé, ne peut pas voir les fichiers générés à partir d’autres nœuds pendant l’exécution du travail. |
Retours
| Type | Description |
|---|---|
|
Instance OutputFileDatasetConfig avec le mode défini pour monter. |
as_upload
Définissez le mode de sortie à charger.
Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé.
as_upload(overwrite=False, source_globs=None)
Paramètres
| Nom | Description |
|---|---|
|
overwrite
Obligatoire
|
Indique s’il faut remplacer les fichiers qui existent déjà dans la destination. |
|
source_globs
Obligatoire
|
Modèles Glob utilisés pour filtrer les fichiers qui seront chargés. |
Retours
| Type | Description |
|---|---|
|
Instance OutputFileDatasetConfig avec le mode défini pour le chargement. |