OutputFileDatasetConfig Classe

Représente comment copier la sortie d’une exécution et être promue en tant que FileDataset.

OutputFileDatasetConfig vous permet de spécifier la façon dont vous souhaitez charger un chemin local particulier sur la cible de calcul vers la destination spécifiée. Si aucun argument n’est passé au constructeur, nous générerons automatiquement un nom, une destination et un chemin d’accès local.

Exemple de non-transmission d’arguments :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Exemple de création d’une sortie, puis de promotion de la sortie vers un jeu de données tabulaire et de l’inscrire avec le nom foo :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialisez un OutputFileDatasetConfig.

Exemple de non-transmission d’arguments :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Exemple de création d’une sortie, puis de promotion de la sortie vers un jeu de données tabulaire et de l’inscrire avec le nom foo :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Constructeur

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Paramètres

Nom	Description
name Obligatoire	str Nom de la sortie spécifique à cette exécution. Cela est généralement utilisé à des fins de traçabilité. Si la valeur Est None, nous générerons automatiquement un nom. Le nom devient également une variable d’environnement qui contient le chemin d’accès local de l’emplacement où vous pouvez écrire vos fichiers et dossiers de sortie dans lesquels vous allez être chargé dans la destination.
destination Obligatoire	tuple Destination vers laquelle copier la sortie. Si la valeur est None, nous allons copier la sortie dans le magasin de données workspaceblobstore, sous le chemin /dataset/{run-id}/{output-name}, où l’ID d’exécution est l’ID de l’exécution et le nom de sortie est le nom de sortie du paramètre de nom ci-dessus. La destination est un tuple dans lequel le premier élément est le magasin de données et le deuxième élément est le chemin d’accès du magasin de données vers lequel copier les données. Le chemin d’accès au sein du magasin de données peut être un chemin d’accès de modèle. Un chemin d’accès de modèle n’est qu’un chemin normal, mais avec des espaces réservés à l’intérieur. Ces espaces réservés seront ensuite résolus au moment approprié. La syntaxe des espaces réservés est {placeholder}, par exemple , /path/with/{placeholder}. Actuellement, seuls deux espaces réservés sont pris en charge, {run-id} et {output-name}.
source Obligatoire	str Chemin d’accès dans la cible de calcul à partir duquel copier les données. Si la valeur Est None, nous allons définir cette valeur sur un répertoire que nous créons dans le répertoire temporaire du système d’exploitation de la cible de calcul.
partition_format Obligatoire	str Spécifiez le format de partition du chemin d’accès. La valeur par défaut est Aucun. Les informations de partition de chaque chemin d’accès sont extraites dans des colonnes en fonction du format spécifié. La partie format « {column_name} » crée une colonne de chaîne et « {column_name :aaaa/MM/mm/mm/ss} » crée une colonne datetime, où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin d’accès '.. /Accounts/2019/01/data.parquet' où la partition est par nom et heure du service, partition_format='/{Department}/{PartitionDate :yyyy/MM/dd}/data.parquet' crée une colonne de chaîne 'Department' avec la valeur 'Accounts' et une colonne datetime 'PartitionDate' avec la valeur '2019-01-01'.
name Obligatoire	str Nom de la sortie spécifique à cette exécution. Cela est généralement utilisé à des fins de traçabilité. Si la valeur Est None, nous générerons automatiquement un nom. Le nom devient également une variable d’environnement qui contient le chemin d’accès local de l’emplacement où vous pouvez écrire vos fichiers et dossiers de sortie dans lesquels vous allez être chargé dans la destination.
destination Obligatoire	tuple Destination vers laquelle copier la sortie. Si la valeur est None, nous allons copier la sortie dans le magasin de données workspaceblobstore, sous le chemin /dataset/{run-id}/{output-name}, où l’ID d’exécution est l’ID de l’exécution et le nom de sortie est le nom de sortie du paramètre de nom ci-dessus. La destination est un tuple dans lequel le premier élément est le magasin de données et le deuxième élément est le chemin d’accès du magasin de données vers lequel copier les données. Le chemin d’accès au sein du magasin de données peut être un chemin d’accès de modèle. Un chemin d’accès de modèle n’est qu’un chemin normal, mais avec des espaces réservés à l’intérieur. Ces espaces réservés seront ensuite résolus au moment approprié. La syntaxe des espaces réservés est {placeholder}, par exemple , /path/with/{placeholder}. Actuellement, seuls deux espaces réservés sont pris en charge, {run-id} et {output-name}.
source Obligatoire	str Chemin d’accès dans la cible de calcul à partir duquel copier les données. Si la valeur Est None, nous allons définir cette valeur sur un répertoire que nous créons dans le répertoire temporaire du système d’exploitation de la cible de calcul.
partition_format Obligatoire	str Spécifiez le format de partition du chemin d’accès. La valeur par défaut est Aucun. Les informations de partition de chaque chemin d’accès sont extraites dans des colonnes en fonction du format spécifié. La partie format « {column_name} » crée une colonne de chaîne et « {column_name :aaaa/MM/mm/mm/ss} » crée une colonne datetime, où « aaaa », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et le deuxième pour le type datetime. Le format doit commencer à partir de la position de la première clé de partition jusqu’à la fin du chemin d’accès au fichier. Par exemple, étant donné le chemin d’accès '.. /Accounts/2019/01/data.parquet' où la partition est par nom et heure du service, partition_format='/{Department}/{PartitionDate :yyyy/MM/dd}/data.parquet' crée une colonne de chaîne 'Department' avec la valeur 'Accounts' et une colonne datetime 'PartitionDate' avec la valeur '2019-01-01'.

Remarques

Vous pouvez transmettre le OutputFileDatasetConfig en tant qu’argument à votre exécution, et il sera automatiquement traduit en chemin local sur le calcul. L’argument source est utilisé si l’un d’eux est spécifié ; sinon, nous générerons automatiquement un répertoire dans le dossier temporaire du système d’exploitation. Les fichiers et dossiers à l’intérieur du répertoire source seront ensuite copiés vers la destination en fonction de la configuration de sortie.

Par défaut, le mode par lequel la sortie sera copiée dans le stockage de destination sera défini sur montage. Pour plus d’informations sur le mode montage, consultez la documentation relative à as_mount.

Méthodes

as_input

Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.

as_mount

Définissez le mode de la sortie à monter.

Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé.

as_upload

Définissez le mode de sortie à charger.

Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé.

as_input

Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.

as_input(name=None)

Paramètres

Nom	Description
name Obligatoire	str Nom de l’entrée spécifique à l’exécution.

Retours

Type	Description
DatasetConsumptionConfig	Instance DatasetConsumptionConfig décrivant comment fournir les données d’entrée.

as_mount

Définissez le mode de la sortie à monter.

Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé.

as_mount(disable_metadata_cache=False)

Paramètres

Nom	Description
disable_metadata_cache Obligatoire	bool Indique s’il faut mettre en cache les métadonnées dans un nœud local, si un nœud est désactivé, ne peut pas voir les fichiers générés à partir d’autres nœuds pendant l’exécution du travail.

Retours

Type	Description
OutputFileDatasetConfig	Instance OutputFileDatasetConfig avec le mode défini pour monter.

as_upload

Définissez le mode de sortie à charger.

Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé.

as_upload(overwrite=False, source_globs=None)

Paramètres

Nom	Description
overwrite Obligatoire	bool Indique s’il faut remplacer les fichiers qui existent déjà dans la destination.
source_globs Obligatoire	list[str] Modèles Glob utilisés pour filtrer les fichiers qui seront chargés.

Retours

Type	Description
OutputFileDatasetConfig	Instance OutputFileDatasetConfig avec le mode défini pour le chargement.

Commentaires

Cette page a-t-elle été utile ?

Partager via

OutputFileDatasetConfig Classe

Constructeur

Paramètres

Remarques

Méthodes

as_input

Paramètres

Retours

as_mount

Paramètres

Retours

as_upload

Paramètres

Retours

Commentaires