Delen via


DatabricksStep Klas

Hiermee maakt u een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR toe te voegen als een knooppunt.

Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.

Maak een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR toe te voegen als een knooppunt.

Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.

:p aram python_script_name:[Vereist] De naam van een Python-script ten opzichte source_directoryvan . Als het script invoer en uitvoer gebruikt, worden deze als parameters doorgegeven aan het script. Als python_script_name dit is opgegeven source_directory , moet dat ook zijn.

Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met name=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Dit is hoe deze eruitzien en u moet de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Daarnaast zijn de volgende parameters beschikbaar in het script:

  • AZUREML_RUN_TOKEN: het AML-token voor verificatie met Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: de verlooptijd van het AML-token.
  • AZUREML_RUN_ID: Azure Machine Learning Run ID voor deze uitvoering.
  • AZUREML_ARM_SUBSCRIPTION: Azure-abonnement voor uw AML-werkruimte.
  • AZUREML_ARM_RESOURCEGROUP: Azure-resourcegroep voor uw Azure Machine Learning-werkruimte.
  • AZUREML_ARM_WORKSPACE_NAME: de naam van uw Azure Machine Learning-werkruimte.
  • AZUREML_ARM_PROJECT_NAME: naam van uw Azure Machine Learning-experiment.
  • AZUREML_SERVICE_ENDPOINT: de eindpunt-URL voor AML-services.
  • AZUREML_WORKSPACE_ID: id van uw Azure Machine Learning-werkruimte.
  • AZUREML_EXPERIMENT_ID: id van uw Azure Machine Learning-experiment.
  • AZUREML_SCRIPT_DIRECTORY_NAME: Mappad in DBFS waar source_directory is gekopieerd.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Wanneer u een Python-script uitvoert vanaf uw lokale computer op Databricks met behulp van DatabricksStep-parameters source_directory . python_script_nameUw source_directory wordt gekopieerd naar DBFS en het mappad op DBFS wordt doorgegeven als een parameter aan uw script wanneer het wordt uitgevoerd. Deze parameter wordt gelabeld als –AZUREML_SCRIPT_DIRECTORY_NAME. U moet dit voorvoegsel geven met de tekenreeks dbfs:/of "/dbfs/" om toegang te krijgen tot de map in DBFS.

Constructor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parameters

Name Description
name
Vereist
str

[Vereist] De naam van de stap.

inputs

Een lijst met invoerverbindingen voor gegevens die in deze stap worden gebruikt. Haal dit op in het notebook met behulp van dbutils.widgets.get("input_name"). Kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. In wezen is dit een pad in een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 inkapselen. PipelineData vertegenwoordigt tussenliggende gegevens die door een andere stap in een pijplijn worden geproduceerd.

Default value: None
outputs

Een lijst met uitvoerpoortdefinities voor uitvoer die door deze stap worden geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn.

Default value: None
existing_cluster_id
str

Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt deze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Het rechtstreeks doorgeven van deze parameters en via RunConfiguration resulteert in een fout.

Default value: None
spark_version
str

De versie van Spark voor het Databricks-runcluster, bijvoorbeeld: '10.4.x-scala2.12'. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
node_type
str

[Vereist] De typen Azure VM-knooppunten voor het Databricks-runcluster, bijvoorbeeld: 'Standard_D3_v2'. Geef een node_type van beide op of instance_pool_id. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
instance_pool_id
str

[Vereist] De exemplaargroep-id waaraan het cluster moet worden gekoppeld. Geef een node_type van beide op of instance_pool_id. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
num_workers
int

[Vereist] Het statische aantal werkrollen voor het Databricks-runcluster. U moet een num_workers van beide of beide min_workers en max_workers. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
min_workers
int

[Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster. U moet een num_workers van beide of beide min_workers en max_workers. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
max_workers
int

[Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster. U moet een num_workers van beide of beide min_workers en max_workers. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
spark_env_variables

De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
spark_conf

De Spark-configuratie voor het Databricks-runcluster. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

Default value: None
init_scripts
[str]

Afgeschreven Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS, na 1 december 2023 niet meer werkt. Als u het probleem wilt verhelpen, gebruikt u globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentaar op de regel van init_scripts in uw AzureML Databricks-stap.

Default value: None
cluster_log_dbfs_path
str

De DBFS-paden waar clusters moeten worden geleverd.

Default value: None
notebook_path
str

[Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u vier manieren opgeven om de code op te geven die moet worden uitgevoerd op het Databricks-cluster.

  1. Als u een notebook wilt uitvoeren dat aanwezig is in de Databricks-werkruimte, gebruikt u: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Als u een Python-script wilt uitvoeren dat aanwezig is in DBFS, gebruikt u: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Als u een JAR wilt uitvoeren die aanwezig is in DBFS, gebruikt u: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Als u een Python-script wilt uitvoeren dat aanwezig is op uw lokale computer, gebruikt u: python_script_name=python_script_name, source_directory=source_directory

Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

Default value: None
notebook_params

Een woordenlijst met parameters die moeten worden doorgegeven aan het notebook. notebook_params zijn beschikbaar als widgets. U kunt de waarden ophalen uit deze widgets in uw notebook met behulp van dbutils.widgets.get("myparam").

Default value: None
python_script_path
str

[Vereist] Het pad naar het Python-script in dbFS. Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

Default value: None
python_script_params

Parameters voor het Python-script.

Default value: None
main_class_name
str

[Vereist] De naam van het toegangspunt in een JAR-module. Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

Default value: None
jar_params

Parameters voor de JAR-module.

Default value: None
python_script_name
str

[Vereist] De naam van een Python-script ten opzichte source_directoryvan . Als het script invoer en uitvoer gebruikt, worden deze als parameters doorgegeven aan het script. Als python_script_name dit is opgegeven source_directory , moet dat ook zijn.

Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met name=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Dit is hoe deze eruitzien en u moet de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Daarnaast zijn de volgende parameters beschikbaar in het script:

  • AZUREML_RUN_TOKEN: het AML-token voor verificatie met Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: de verlooptijd van het AML-token.
  • AZUREML_RUN_ID: Azure Machine Learning Run ID voor deze uitvoering.
  • AZUREML_ARM_SUBSCRIPTION: Azure-abonnement voor uw AML-werkruimte.
  • AZUREML_ARM_RESOURCEGROUP: Azure-resourcegroep voor uw Azure Machine Learning-werkruimte.
  • AZUREML_ARM_WORKSPACE_NAME: de naam van uw Azure Machine Learning-werkruimte.
  • AZUREML_ARM_PROJECT_NAME: naam van uw Azure Machine Learning-experiment.
  • AZUREML_SERVICE_ENDPOINT: de eindpunt-URL voor AML-services.
  • AZUREML_WORKSPACE_ID: id van uw Azure Machine Learning-werkruimte.
  • AZUREML_EXPERIMENT_ID: id van uw Azure Machine Learning-experiment.
  • AZUREML_SCRIPT_DIRECTORY_NAME: Mappad in DBFS waar source_directory is gekopieerd. (Deze parameter wordt alleen ingevuld wanneer python_script_name deze wordt gebruikt. Zie hieronder meer informatie.)

Wanneer u een Python-script uitvoert vanaf uw lokale computer op Databricks met behulp van DatabricksStep-parameters source_directory . python_script_nameUw source_directory wordt gekopieerd naar DBFS en het mappad op DBFS wordt doorgegeven als een parameter aan uw script wanneer het wordt uitgevoerd. Deze parameter wordt gelabeld als –AZUREML_SCRIPT_DIRECTORY_NAME. U moet dit voorvoegsel geven met de tekenreeks dbfs:/of "/dbfs/" om toegang te krijgen tot de map in DBFS.

Default value: None
source_directory
str

De map met het script en andere bestanden. Als python_script_name dit is opgegeven source_directory , moet dat ook zijn.

Default value: None
hash_paths
[str]

AFGESCHAFT: niet meer nodig.

Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van source_directory bestanden die worden vermeld in .amlignore of .gitignore.

Default value: None
run_name
str

De naam in Databricks voor deze uitvoering.

Default value: None
timeout_seconds
int

De time-out voor de Databricks-uitvoering.

Default value: None
runconfig

De runconfig die moet worden gebruikt.

Opmerking: U kunt zoveel bibliotheken doorgeven als u wilt als afhankelijkheden voor uw taak met behulp van de volgende parameters: maven_libraries, pypi_libraries, egg_libraries, jar_librariesof rcran_libraries. Geef deze parameters rechtstreeks door met de bijbehorende parameters of als onderdeel van het RunConfiguration-object met behulp van de runconfig parameter, maar niet beide.

Default value: None
maven_libraries

Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
pypi_libraries

PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
egg_libraries

Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
jar_libraries

Jar-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
rcran_libraries

RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.

Default value: None
compute_target

[Vereist] Een Azure Databricks-berekening. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte toevoegen als rekendoel aan uw Azure Machine Learning-werkruimte.

Default value: None
allow_reuse

Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.

Default value: True
version
str

Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.

Default value: None
permit_cluster_restart

als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster namens de gebruiker opnieuw kan worden opgestart.

Default value: None
name
Vereist
str

[Vereist] De naam van de stap.

inputs
Vereist

Lijst met invoerverbindingen voor gegevens die in deze stap worden gebruikt. Haal dit op in het notebook met behulp van dbutils.widgets.get("input_name"). Kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. In wezen is dit een pad in een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 inkapselen. PipelineData vertegenwoordigt tussenliggende gegevens die door een andere stap in een pijplijn worden geproduceerd.

outputs
Vereist
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Een lijst met uitvoerpoortdefinities voor uitvoer die door deze stap worden geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn.

existing_cluster_id
Vereist
str

Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken:

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt deze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Het rechtstreeks doorgeven van deze parameters en via RunConfiguration resulteert in een fout.

spark_version
Vereist
str

De versie van Spark voor het Databricks-runcluster, bijvoorbeeld: '10.4.x-scala2.12'. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

node_type
Vereist
str

[Vereist] De typen Azure VM-knooppunten voor het Databricks-runcluster, bijvoorbeeld: 'Standard_D3_v2'. Geef een node_type van beide op of instance_pool_id. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

instance_pool_id
Vereist
str

[Vereist] De exemplaargroep-id waaraan het cluster moet worden gekoppeld. Geef een node_type van beide op of instance_pool_id. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

num_workers
Vereist
int

[Vereist] Het statische aantal werkrollen voor het Databricks-runcluster. U moet een num_workers van beide of beide min_workers en max_workers.

Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

min_workers
Vereist
int

[Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster. U moet een num_workers van beide of beide min_workers en max_workers.

Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

max_workers
Vereist
int

[Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster. U moet een num_workers van beide of beide min_workers en max_workers.

Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

spark_env_variables
Vereist

De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

spark_conf
Vereist

De Spark-configuratie voor het Databricks-runcluster. Zie de beschrijving voor de existing_cluster_id parameter voor meer informatie.

init_scripts
Vereist
[str]

Afgeschreven Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS, na 1 december 2023 niet meer werkt. Als u het probleem wilt verhelpen, gebruikt u globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentaar op de regel van init_scripts in uw AzureML Databricks-stap.

cluster_log_dbfs_path
Vereist
str

De DBFS-paden waar clusters moeten worden geleverd.

notebook_path
Vereist
str

[Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u vier manieren opgeven om de code op te geven die moet worden uitgevoerd op het Databricks-cluster.

  1. Als u een notebook wilt uitvoeren dat aanwezig is in de Databricks-werkruimte, gebruikt u: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Als u een Python-script wilt uitvoeren dat aanwezig is in DBFS, gebruikt u: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Als u een JAR wilt uitvoeren die aanwezig is in DBFS, gebruikt u: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Als u een Python-script wilt uitvoeren dat aanwezig is op uw lokale computer, gebruikt u: python_script_name=python_script_name, source_directory=source_directory

Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

notebook_params
Vereist

Een woordenlijst met parameters die moeten worden doorgegeven aan het notebook. notebook_params zijn beschikbaar als widgets. U kunt de waarden ophalen uit deze widgets in uw notebook met behulp van dbutils.widgets.get("myparam").

python_script_path
Vereist
str

[Vereist] Het pad naar het Python-script in dbFS. Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

python_script_params
Vereist

Parameters voor het Python-script.

main_class_name
Vereist
str

[Vereist] De naam van het toegangspunt in een JAR-module. Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

jar_params
Vereist

Parameters voor de JAR-module.

source_directory
Vereist
str

De map met het script en andere bestanden. Als python_script_name dit is opgegeven source_directory , moet dat ook zijn.

hash_paths
Vereist
[str]

AFGESCHAFT: niet meer nodig.

Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van source_directory bestanden die worden vermeld in .amlignore of .gitignore.

run_name
Vereist
str

De naam in Databricks voor deze uitvoering.

timeout_seconds
Vereist
int

De time-out voor de Databricks-uitvoering.

runconfig
Vereist

De runconfig die moet worden gebruikt.

Opmerking: U kunt zoveel bibliotheken doorgeven als u wilt als afhankelijkheden voor uw taak met behulp van de volgende parameters: maven_libraries, pypi_libraries, egg_libraries, jar_librariesof rcran_libraries. Geef deze parameters rechtstreeks door met de bijbehorende parameters of als onderdeel van het RunConfiguration-object met behulp van de runconfig parameter, maar niet beide.

maven_libraries
Vereist
list[<xref:azureml.core.runconfig.MavenLibrary>]

Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van Maven-bibliotheken help(azureml.core.runconfig.MavenLibrary).

pypi_libraries
Vereist
list[<xref:azureml.core.runconfig.PyPiLibrary>]

PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van PyPi-bibliotheken help(azureml.core.runconfig.PyPiLibrary).

egg_libraries
Vereist
list[<xref:azureml.core.runconfig.EggLibrary>]

Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van eierbibliotheken help(azureml.core.runconfig.EggLibrary).

jar_libraries
Vereist
list[<xref:azureml.core.runconfig.JarLibrary>]

Jar-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van Jar-bibliotheken help(azureml.core.runconfig.JarLibrary).

rcran_libraries
Vereist
list[<xref:azureml.core.runconfig.RCranLibrary>]

RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van RCran-bibliotheken help(azureml.core.runconfig.RCranLibrary).

compute_target
Vereist

[Vereist] Azure Databricks Compute. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte toevoegen als rekendoel aan uw Azure Machine Learning-werkruimte.

allow_reuse
Vereist

Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.

version
Vereist
str

Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.

permit_cluster_restart
Vereist

als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster namens de gebruiker opnieuw kan worden opgestart.

Methoden

create_node

Maak een knooppunt op basis van de Databricks-stap en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn met deze stap wordt geïnstantieerd, worden in Azure ML automatisch de parameters doorgegeven die zijn vereist via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node

Maak een knooppunt op basis van de Databricks-stap en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn met deze stap wordt geïnstantieerd, worden in Azure ML automatisch de parameters doorgegeven die zijn vereist via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node(graph, default_datastore, context)

Parameters

Name Description
graph
Vereist

Het grafiekobject waaraan het knooppunt moet worden toegevoegd.

default_datastore
Vereist

Het standaardgegevensarchief.

context
Vereist
<xref:azureml.pipeline.core._GraphContext>

De grafiekcontext.

Retouren

Type Description

Het gemaakte knooppunt.