DatabricksStep Klas

Hiermee maakt u een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR toe te voegen als een knooppunt.

Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.

Maak een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR toe te voegen als een knooppunt.

Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.

:p aram python_script_name:[Vereist] De naam van een Python-script ten opzichte source_directoryvan . Als het script invoer en uitvoer gebruikt, worden deze als parameters doorgegeven aan het script. Als python_script_name dit is opgegeven source_directory , moet dat ook zijn.

Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.

Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met name=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Dit is hoe deze eruitzien en u moet de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Daarnaast zijn de volgende parameters beschikbaar in het script:

AZUREML_RUN_TOKEN: het AML-token voor verificatie met Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: de verlooptijd van het AML-token.
AZUREML_RUN_ID: Azure Machine Learning Run ID voor deze uitvoering.
AZUREML_ARM_SUBSCRIPTION: Azure-abonnement voor uw AML-werkruimte.
AZUREML_ARM_RESOURCEGROUP: Azure-resourcegroep voor uw Azure Machine Learning-werkruimte.
AZUREML_ARM_WORKSPACE_NAME: de naam van uw Azure Machine Learning-werkruimte.
AZUREML_ARM_PROJECT_NAME: naam van uw Azure Machine Learning-experiment.
AZUREML_SERVICE_ENDPOINT: de eindpunt-URL voor AML-services.
AZUREML_WORKSPACE_ID: id van uw Azure Machine Learning-werkruimte.
AZUREML_EXPERIMENT_ID: id van uw Azure Machine Learning-experiment.
AZUREML_SCRIPT_DIRECTORY_NAME: Mappad in DBFS waar source_directory is gekopieerd.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Wanneer u een Python-script uitvoert vanaf uw lokale computer op Databricks met behulp van DatabricksStep-parameters source_directory . python_script_nameUw source_directory wordt gekopieerd naar DBFS en het mappad op DBFS wordt doorgegeven als een parameter aan uw script wanneer het wordt uitgevoerd. Deze parameter wordt gelabeld als –AZUREML_SCRIPT_DIRECTORY_NAME. U moet dit voorvoegsel geven met de tekenreeks dbfs:/of "/dbfs/" om toegang te krijgen tot de map in DBFS.

Constructor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parameters

Name	Description
name Vereist	str [Vereist] De naam van de stap.
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Een lijst met invoerverbindingen voor gegevens die in deze stap worden gebruikt. Haal dit op in het notebook met behulp van dbutils.widgets.get("input_name"). Kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. In wezen is dit een pad in een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 inkapselen. PipelineData vertegenwoordigt tussenliggende gegevens die door een andere stap in een pijplijn worden geproduceerd. Default value: None
outputs	list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]] Een lijst met uitvoerpoortdefinities voor uitvoer die door deze stap worden geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn. Default value: None
existing_cluster_id	str Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken: spark_version node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt deze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Het rechtstreeks doorgeven van deze parameters en via RunConfiguration resulteert in een fout. Default value: None
spark_version	str De versie van Spark voor het Databricks-runcluster, bijvoorbeeld: '10.4.x-scala2.12'. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie. Default value: None
node_type	str [Vereist] De typen Azure VM-knooppunten voor het Databricks-runcluster, bijvoorbeeld: 'Standard_D3_v2'. Geef een `node_type` van beide op of `instance_pool_id`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie. Default value: None
instance_pool_id	str [Vereist] De exemplaargroep-id waaraan het cluster moet worden gekoppeld. Geef een `node_type` van beide op of `instance_pool_id`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie. Default value: None
num_workers	int [Vereist] Het statische aantal werkrollen voor het Databricks-runcluster. U moet een `num_workers` van beide of beide `min_workers` en `max_workers`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie. Default value: None
min_workers	int [Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster. U moet een `num_workers` van beide of beide `min_workers` en `max_workers`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie. Default value: None
max_workers	int [Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster. U moet een `num_workers` van beide of beide `min_workers` en `max_workers`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie. Default value: None
spark_env_variables	dict De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie. Default value: None
spark_conf	dict De Spark-configuratie voor het Databricks-runcluster. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie. Default value: None
init_scripts	[str] Afgeschreven Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS, na 1 december 2023 niet meer werkt. Als u het probleem wilt verhelpen, gebruikt u globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentaar op de regel van init_scripts in uw AzureML Databricks-stap. Default value: None
cluster_log_dbfs_path	str De DBFS-paden waar clusters moeten worden geleverd. Default value: None
notebook_path	str [Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u vier manieren opgeven om de code op te geven die moet worden uitgevoerd op het Databricks-cluster. Als u een notebook wilt uitvoeren dat aanwezig is in de Databricks-werkruimte, gebruikt u: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'} Als u een Python-script wilt uitvoeren dat aanwezig is in DBFS, gebruikt u: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Als u een JAR wilt uitvoeren die aanwezig is in DBFS, gebruikt u: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Als u een Python-script wilt uitvoeren dat aanwezig is op uw lokale computer, gebruikt u: python_script_name=python_script_name, source_directory=source_directory Geef precies een van `notebook_path`, `python_script_path`, of `python_script_namemain_class_name`. Default value: None
notebook_params	dict[str, Union[str, PipelineParameter]] Een woordenlijst met parameters die moeten worden doorgegeven aan het notebook. `notebook_params` zijn beschikbaar als widgets. U kunt de waarden ophalen uit deze widgets in uw notebook met behulp van dbutils.widgets.get("myparam"). Default value: None
python_script_path	str [Vereist] Het pad naar het Python-script in dbFS. Geef precies een van `notebook_path`, `python_script_path`, of `python_script_namemain_class_name`. Default value: None
python_script_params	list[str, PipelineParameter] Parameters voor het Python-script. Default value: None
main_class_name	str [Vereist] De naam van het toegangspunt in een JAR-module. Geef precies een van `notebook_path`, `python_script_path`, of `python_script_namemain_class_name`. Default value: None
jar_params	list[str, PipelineParameter] Parameters voor de JAR-module. Default value: None
python_script_name	str [Vereist] De naam van een Python-script ten opzichte `source_directory`van . Als het script invoer en uitvoer gebruikt, worden deze als parameters doorgegeven aan het script. Als `python_script_name` dit is opgegeven `source_directory` , moet dat ook zijn. Geef precies een van `notebook_path`, `python_script_path`, of `python_script_namemain_class_name`. Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met name=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Dit is hoe deze eruitzien en u moet de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Daarnaast zijn de volgende parameters beschikbaar in het script: AZUREML_RUN_TOKEN: het AML-token voor verificatie met Azure Machine Learning. AZUREML_RUN_TOKEN_EXPIRY: de verlooptijd van het AML-token. AZUREML_RUN_ID: Azure Machine Learning Run ID voor deze uitvoering. AZUREML_ARM_SUBSCRIPTION: Azure-abonnement voor uw AML-werkruimte. AZUREML_ARM_RESOURCEGROUP: Azure-resourcegroep voor uw Azure Machine Learning-werkruimte. AZUREML_ARM_WORKSPACE_NAME: de naam van uw Azure Machine Learning-werkruimte. AZUREML_ARM_PROJECT_NAME: naam van uw Azure Machine Learning-experiment. AZUREML_SERVICE_ENDPOINT: de eindpunt-URL voor AML-services. AZUREML_WORKSPACE_ID: id van uw Azure Machine Learning-werkruimte. AZUREML_EXPERIMENT_ID: id van uw Azure Machine Learning-experiment. AZUREML_SCRIPT_DIRECTORY_NAME: Mappad in DBFS waar source_directory is gekopieerd. (Deze parameter wordt alleen ingevuld wanneer `python_script_name` deze wordt gebruikt. Zie hieronder meer informatie.) Wanneer u een Python-script uitvoert vanaf uw lokale computer op Databricks met behulp van DatabricksStep-parameters `source_directory` . `python_script_name`Uw source_directory wordt gekopieerd naar DBFS en het mappad op DBFS wordt doorgegeven als een parameter aan uw script wanneer het wordt uitgevoerd. Deze parameter wordt gelabeld als –AZUREML_SCRIPT_DIRECTORY_NAME. U moet dit voorvoegsel geven met de tekenreeks dbfs:/of "/dbfs/" om toegang te krijgen tot de map in DBFS. Default value: None
source_directory	str De map met het script en andere bestanden. Als `python_script_name` dit is opgegeven `source_directory` , moet dat ook zijn. Default value: None
hash_paths	[str] AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van `source_directory` bestanden die worden vermeld in .amlignore of .gitignore. Default value: None
run_name	str De naam in Databricks voor deze uitvoering. Default value: None
timeout_seconds	int De time-out voor de Databricks-uitvoering. Default value: None
runconfig	RunConfiguration De runconfig die moet worden gebruikt. Opmerking: U kunt zoveel bibliotheken doorgeven als u wilt als afhankelijkheden voor uw taak met behulp van de volgende parameters: `maven_libraries`, `pypi_libraries`, `egg_libraries`, `jar_libraries`of `rcran_libraries`. Geef deze parameters rechtstreeks door met de bijbehorende parameters of als onderdeel van het RunConfiguration-object met behulp van de `runconfig` parameter, maar niet beide. Default value: None
maven_libraries	list[MavenLibrary] Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
pypi_libraries	list[PyPiLibrary] PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
egg_libraries	list[EggLibrary] Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
jar_libraries	list[JarLibrary] Jar-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
rcran_libraries	list[RCranLibrary] RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
compute_target	str, DatabricksCompute [Vereist] Een Azure Databricks-berekening. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte toevoegen als rekendoel aan uw Azure Machine Learning-werkruimte. Default value: None
allow_reuse	bool Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd. Default value: True
version	str Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven. Default value: None
permit_cluster_restart	bool als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster namens de gebruiker opnieuw kan worden opgestart. Default value: None
name Vereist	str [Vereist] De naam van de stap.
inputs Vereist	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lijst met invoerverbindingen voor gegevens die in deze stap worden gebruikt. Haal dit op in het notebook met behulp van dbutils.widgets.get("input_name"). Kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. In wezen is dit een pad in een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 inkapselen. PipelineData vertegenwoordigt tussenliggende gegevens die door een andere stap in een pijplijn worden geproduceerd.
outputs Vereist	list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]] Een lijst met uitvoerpoortdefinities voor uitvoer die door deze stap worden geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn.
existing_cluster_id Vereist	str Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken: spark_version node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt deze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Het rechtstreeks doorgeven van deze parameters en via RunConfiguration resulteert in een fout.
spark_version Vereist	str De versie van Spark voor het Databricks-runcluster, bijvoorbeeld: '10.4.x-scala2.12'. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie.
node_type Vereist	str [Vereist] De typen Azure VM-knooppunten voor het Databricks-runcluster, bijvoorbeeld: 'Standard_D3_v2'. Geef een `node_type` van beide op of `instance_pool_id`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie.
instance_pool_id Vereist	str [Vereist] De exemplaargroep-id waaraan het cluster moet worden gekoppeld. Geef een `node_type` van beide op of `instance_pool_id`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie.
num_workers Vereist	int [Vereist] Het statische aantal werkrollen voor het Databricks-runcluster. U moet een `num_workers` van beide of beide `min_workers` en `max_workers`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie.
min_workers Vereist	int [Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster. U moet een `num_workers` van beide of beide `min_workers` en `max_workers`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie.
max_workers Vereist	int [Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster. U moet een `num_workers` van beide of beide `min_workers` en `max_workers`. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie.
spark_env_variables Vereist	dict De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie.
spark_conf Vereist	dict De Spark-configuratie voor het Databricks-runcluster. Zie de beschrijving voor de `existing_cluster_id` parameter voor meer informatie.
init_scripts Vereist	[str] Afgeschreven Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS, na 1 december 2023 niet meer werkt. Als u het probleem wilt verhelpen, gebruikt u globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentaar op de regel van init_scripts in uw AzureML Databricks-stap.
cluster_log_dbfs_path Vereist	str De DBFS-paden waar clusters moeten worden geleverd.
notebook_path Vereist	str [Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u vier manieren opgeven om de code op te geven die moet worden uitgevoerd op het Databricks-cluster. Als u een notebook wilt uitvoeren dat aanwezig is in de Databricks-werkruimte, gebruikt u: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'} Als u een Python-script wilt uitvoeren dat aanwezig is in DBFS, gebruikt u: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Als u een JAR wilt uitvoeren die aanwezig is in DBFS, gebruikt u: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Als u een Python-script wilt uitvoeren dat aanwezig is op uw lokale computer, gebruikt u: python_script_name=python_script_name, source_directory=source_directory Geef precies een van `notebook_path`, `python_script_path`, of `python_script_namemain_class_name`.
notebook_params Vereist	dict[str, (str of PipelineParameter)] Een woordenlijst met parameters die moeten worden doorgegeven aan het notebook. `notebook_params` zijn beschikbaar als widgets. U kunt de waarden ophalen uit deze widgets in uw notebook met behulp van dbutils.widgets.get("myparam").
python_script_path Vereist	str [Vereist] Het pad naar het Python-script in dbFS. Geef precies een van `notebook_path`, `python_script_path`, of `python_script_namemain_class_name`.
python_script_params Vereist	list[str, PipelineParameter] Parameters voor het Python-script.
main_class_name Vereist	str [Vereist] De naam van het toegangspunt in een JAR-module. Geef precies een van `notebook_path`, `python_script_path`, of `python_script_namemain_class_name`.
jar_params Vereist	list[str, PipelineParameter] Parameters voor de JAR-module.
source_directory Vereist	str De map met het script en andere bestanden. Als `python_script_name` dit is opgegeven `source_directory` , moet dat ook zijn.
hash_paths Vereist	[str] AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van `source_directory` bestanden die worden vermeld in .amlignore of .gitignore.
run_name Vereist	str De naam in Databricks voor deze uitvoering.
timeout_seconds Vereist	int De time-out voor de Databricks-uitvoering.
runconfig Vereist	RunConfiguration De runconfig die moet worden gebruikt. Opmerking: U kunt zoveel bibliotheken doorgeven als u wilt als afhankelijkheden voor uw taak met behulp van de volgende parameters: `maven_libraries`, `pypi_libraries`, `egg_libraries`, `jar_libraries`of `rcran_libraries`. Geef deze parameters rechtstreeks door met de bijbehorende parameters of als onderdeel van het RunConfiguration-object met behulp van de `runconfig` parameter, maar niet beide.
maven_libraries Vereist	list[<xref:azureml.core.runconfig.MavenLibrary>] Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van Maven-bibliotheken `help(azureml.core.runconfig.MavenLibrary)`.
pypi_libraries Vereist	list[<xref:azureml.core.runconfig.PyPiLibrary>] PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van PyPi-bibliotheken `help(azureml.core.runconfig.PyPiLibrary)`.
egg_libraries Vereist	list[<xref:azureml.core.runconfig.EggLibrary>] Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van eierbibliotheken `help(azureml.core.runconfig.EggLibrary)`.
jar_libraries Vereist	list[<xref:azureml.core.runconfig.JarLibrary>] Jar-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van Jar-bibliotheken `help(azureml.core.runconfig.JarLibrary)`.
rcran_libraries Vereist	list[<xref:azureml.core.runconfig.RCranLibrary>] RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Zie voor meer informatie over de specificatie van RCran-bibliotheken `help(azureml.core.runconfig.RCranLibrary)`.
compute_target Vereist	str, DatabricksCompute [Vereist] Azure Databricks Compute. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte toevoegen als rekendoel aan uw Azure Machine Learning-werkruimte.
allow_reuse Vereist	bool Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.
version Vereist	str Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.
permit_cluster_restart Vereist	bool als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster namens de gebruiker opnieuw kan worden opgestart.

Methoden

create_node

Maak een knooppunt op basis van de Databricks-stap en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn met deze stap wordt geïnstantieerd, worden in Azure ML automatisch de parameters doorgegeven die zijn vereist via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node

Maak een knooppunt op basis van de Databricks-stap en voeg dit toe aan de opgegeven grafiek.

create_node(graph, default_datastore, context)

Parameters

Name	Description
graph Vereist	Graph Het grafiekobject waaraan het knooppunt moet worden toegevoegd.
default_datastore Vereist	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Het standaardgegevensarchief.
context Vereist	<xref:azureml.pipeline.core._GraphContext> De grafiekcontext.

Retouren

Type	Description
Node	Het gemaakte knooppunt.

Feedback

Is deze pagina nuttig?

Delen via

DatabricksStep Klas

Constructor

Parameters

Methoden

create_node

Parameters

Retouren

Feedback