DatabricksStep Klas
Hiermee maakt u een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR toe te voegen als een knooppunt.
Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.
Maak een Azure ML-pijplijnstap om een DataBricks-notebook, Python-script of JAR toe te voegen als een knooppunt.
Zie het notebook https://aka.ms/pl-databricksvoor een voorbeeld van het gebruik van DatabricksStep.
:p aram python_script_name:[Vereist] De naam van een Python-script ten opzichte source_directoryvan .
Als het script invoer en uitvoer gebruikt, worden deze als parameters doorgegeven aan het script.
Als python_script_name dit is opgegeven source_directory , moet dat ook zijn.
Geef precies een van notebook_path, python_script_path, of python_script_namemain_class_name.
Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met name=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Dit is hoe deze eruitzien en u moet de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Daarnaast zijn de volgende parameters beschikbaar in het script:
- AZUREML_RUN_TOKEN: het AML-token voor verificatie met Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: de verlooptijd van het AML-token.
- AZUREML_RUN_ID: Azure Machine Learning Run ID voor deze uitvoering.
- AZUREML_ARM_SUBSCRIPTION: Azure-abonnement voor uw AML-werkruimte.
- AZUREML_ARM_RESOURCEGROUP: Azure-resourcegroep voor uw Azure Machine Learning-werkruimte.
- AZUREML_ARM_WORKSPACE_NAME: de naam van uw Azure Machine Learning-werkruimte.
- AZUREML_ARM_PROJECT_NAME: naam van uw Azure Machine Learning-experiment.
- AZUREML_SERVICE_ENDPOINT: de eindpunt-URL voor AML-services.
- AZUREML_WORKSPACE_ID: id van uw Azure Machine Learning-werkruimte.
- AZUREML_EXPERIMENT_ID: id van uw Azure Machine Learning-experiment.
- AZUREML_SCRIPT_DIRECTORY_NAME: Mappad in DBFS waar source_directory is gekopieerd.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Wanneer u een Python-script uitvoert vanaf uw lokale computer op Databricks met behulp van DatabricksStep-parameters source_directory . python_script_nameUw source_directory wordt gekopieerd naar DBFS en het mappad op DBFS wordt doorgegeven als een parameter aan uw script wanneer het wordt uitgevoerd.
Deze parameter wordt gelabeld als –AZUREML_SCRIPT_DIRECTORY_NAME. U moet dit voorvoegsel geven met de tekenreeks dbfs:/of "/dbfs/" om toegang te krijgen tot de map in DBFS.
Constructor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parameters
| Name | Description |
|---|---|
|
name
Vereist
|
[Vereist] De naam van de stap. |
|
inputs
|
Een lijst met invoerverbindingen voor gegevens die in deze stap worden gebruikt. Haal dit op in het notebook met behulp van dbutils.widgets.get("input_name"). Kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. In wezen is dit een pad in een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 inkapselen. PipelineData vertegenwoordigt tussenliggende gegevens die door een andere stap in een pijplijn worden geproduceerd. Default value: None
|
|
outputs
|
Een lijst met uitvoerpoortdefinities voor uitvoer die door deze stap worden geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn. Default value: None
|
|
existing_cluster_id
|
Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken:
Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt deze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Het rechtstreeks doorgeven van deze parameters en via RunConfiguration resulteert in een fout. Default value: None
|
|
spark_version
|
De versie van Spark voor het Databricks-runcluster, bijvoorbeeld: '10.4.x-scala2.12'.
Zie de beschrijving voor de Default value: None
|
|
node_type
|
[Vereist] De typen Azure VM-knooppunten voor het Databricks-runcluster, bijvoorbeeld: 'Standard_D3_v2'. Geef een Default value: None
|
|
instance_pool_id
|
[Vereist] De exemplaargroep-id waaraan het cluster moet worden gekoppeld.
Geef een Default value: None
|
|
num_workers
|
[Vereist] Het statische aantal werkrollen voor het Databricks-runcluster.
U moet een Default value: None
|
|
min_workers
|
[Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster.
U moet een Default value: None
|
|
max_workers
|
[Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster.
U moet een Default value: None
|
|
spark_env_variables
|
De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd.
Zie de beschrijving voor de Default value: None
|
|
spark_conf
|
De Spark-configuratie voor het Databricks-runcluster.
Zie de beschrijving voor de Default value: None
|
|
init_scripts
|
[str]
Afgeschreven Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS, na 1 december 2023 niet meer werkt. Als u het probleem wilt verhelpen, gebruikt u globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentaar op de regel van init_scripts in uw AzureML Databricks-stap. Default value: None
|
|
cluster_log_dbfs_path
|
De DBFS-paden waar clusters moeten worden geleverd. Default value: None
|
|
notebook_path
|
[Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u vier manieren opgeven om de code op te geven die moet worden uitgevoerd op het Databricks-cluster.
Geef precies een van Default value: None
|
|
notebook_params
|
Een woordenlijst met parameters die moeten worden doorgegeven aan het notebook.
Default value: None
|
|
python_script_path
|
[Vereist] Het pad naar het Python-script in dbFS.
Geef precies een van Default value: None
|
|
python_script_params
|
Parameters voor het Python-script. Default value: None
|
|
main_class_name
|
[Vereist] De naam van het toegangspunt in een JAR-module.
Geef precies een van Default value: None
|
|
jar_params
|
Parameters voor de JAR-module. Default value: None
|
|
python_script_name
|
[Vereist] De naam van een Python-script ten opzichte Geef precies een van Als u een DataReference-object opgeeft als invoer met data_reference_name=input1 en een PipelineData-object als uitvoer met name=output1, worden de invoer en uitvoer als parameters doorgegeven aan het script. Dit is hoe deze eruitzien en u moet de argumenten in uw script parseren om toegang te krijgen tot de paden van elke invoer en uitvoer: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Daarnaast zijn de volgende parameters beschikbaar in het script:
Wanneer u een Python-script uitvoert vanaf uw lokale computer op Databricks met behulp van DatabricksStep-parameters Default value: None
|
|
source_directory
|
De map met het script en andere bestanden.
Als Default value: None
|
|
hash_paths
|
[str]
AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van Default value: None
|
|
run_name
|
De naam in Databricks voor deze uitvoering. Default value: None
|
|
timeout_seconds
|
De time-out voor de Databricks-uitvoering. Default value: None
|
|
runconfig
|
De runconfig die moet worden gebruikt. Opmerking: U kunt zoveel bibliotheken doorgeven als u wilt als afhankelijkheden voor uw taak met behulp van de volgende parameters: Default value: None
|
|
maven_libraries
|
Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
|
pypi_libraries
|
PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
|
egg_libraries
|
Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
|
jar_libraries
|
Jar-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
|
rcran_libraries
|
RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering. Default value: None
|
|
compute_target
|
[Vereist] Een Azure Databricks-berekening. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte toevoegen als rekendoel aan uw Azure Machine Learning-werkruimte. Default value: None
|
|
allow_reuse
|
Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd. Default value: True
|
|
version
|
Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven. Default value: None
|
|
permit_cluster_restart
|
als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster namens de gebruiker opnieuw kan worden opgestart. Default value: None
|
|
name
Vereist
|
[Vereist] De naam van de stap. |
|
inputs
Vereist
|
Lijst met invoerverbindingen voor gegevens die in deze stap worden gebruikt. Haal dit op in het notebook met behulp van dbutils.widgets.get("input_name"). Kan DataReference of PipelineData zijn. DataReference vertegenwoordigt een bestaand stukje gegevens in een gegevensarchief. In wezen is dit een pad in een gegevensarchief. DatabricksStep ondersteunt gegevensarchieven die DBFS, Azure Blob of ADLS v1 inkapselen. PipelineData vertegenwoordigt tussenliggende gegevens die door een andere stap in een pijplijn worden geproduceerd. |
|
outputs
Vereist
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Een lijst met uitvoerpoortdefinities voor uitvoer die door deze stap worden geproduceerd. Haal dit op in het notebook met behulp van dbutils.widgets.get("output_name"). Moet PipelineData zijn. |
|
existing_cluster_id
Vereist
|
Een cluster-id van een bestaand interactief cluster in de Databricks-werkruimte. Als u deze parameter doorgeeft, kunt u geen van de volgende parameters doorgeven die worden gebruikt om een nieuw cluster te maken:
Opmerking: voor het maken van een nieuw taakcluster moet u de bovenstaande parameters doorgeven. U kunt deze parameters rechtstreeks doorgeven of u kunt deze doorgeven als onderdeel van het RunConfiguration-object met behulp van de parameter runconfig. Het rechtstreeks doorgeven van deze parameters en via RunConfiguration resulteert in een fout. |
|
spark_version
Vereist
|
De versie van Spark voor het Databricks-runcluster, bijvoorbeeld: '10.4.x-scala2.12'.
Zie de beschrijving voor de |
|
node_type
Vereist
|
[Vereist] De typen Azure VM-knooppunten voor het Databricks-runcluster, bijvoorbeeld: 'Standard_D3_v2'. Geef een |
|
instance_pool_id
Vereist
|
[Vereist] De exemplaargroep-id waaraan het cluster moet worden gekoppeld.
Geef een |
|
num_workers
Vereist
|
[Vereist] Het statische aantal werkrollen voor het Databricks-runcluster.
U moet een Zie de beschrijving voor de |
|
min_workers
Vereist
|
[Vereist] Het minimale aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster.
U moet een Zie de beschrijving voor de |
|
max_workers
Vereist
|
[Vereist] Het maximum aantal werkrollen dat moet worden gebruikt voor het automatisch schalen van het Databricks-runcluster.
U moet een Zie de beschrijving voor de |
|
spark_env_variables
Vereist
|
De Spark-omgevingsvariabelen voor het Databricks-cluster worden uitgevoerd.
Zie de beschrijving voor de |
|
spark_conf
Vereist
|
De Spark-configuratie voor het Databricks-runcluster.
Zie de beschrijving voor de |
|
init_scripts
Vereist
|
[str]
Afgeschreven Databricks heeft aangekondigd dat het init-script dat is opgeslagen in DBFS, na 1 december 2023 niet meer werkt. Als u het probleem wilt verhelpen, gebruikt u globale init-scripts in Databricks na https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentaar op de regel van init_scripts in uw AzureML Databricks-stap. |
|
cluster_log_dbfs_path
Vereist
|
De DBFS-paden waar clusters moeten worden geleverd. |
|
notebook_path
Vereist
|
[Vereist] Het pad naar het notebook in het Databricks-exemplaar. Met deze klasse kunt u vier manieren opgeven om de code op te geven die moet worden uitgevoerd op het Databricks-cluster.
Geef precies een van |
|
notebook_params
Vereist
|
Een woordenlijst met parameters die moeten worden doorgegeven aan het notebook.
|
|
python_script_path
Vereist
|
[Vereist] Het pad naar het Python-script in dbFS.
Geef precies een van |
|
python_script_params
Vereist
|
Parameters voor het Python-script. |
|
main_class_name
Vereist
|
[Vereist] De naam van het toegangspunt in een JAR-module.
Geef precies een van |
|
jar_params
Vereist
|
Parameters voor de JAR-module. |
|
source_directory
Vereist
|
De map met het script en andere bestanden.
Als |
|
hash_paths
Vereist
|
[str]
AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van |
|
run_name
Vereist
|
De naam in Databricks voor deze uitvoering. |
|
timeout_seconds
Vereist
|
De time-out voor de Databricks-uitvoering. |
|
runconfig
Vereist
|
De runconfig die moet worden gebruikt. Opmerking: U kunt zoveel bibliotheken doorgeven als u wilt als afhankelijkheden voor uw taak met behulp van de volgende parameters: |
|
maven_libraries
Vereist
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
Maven-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van Maven-bibliotheken |
|
pypi_libraries
Vereist
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
PyPi-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van PyPi-bibliotheken |
|
egg_libraries
Vereist
|
list[<xref:azureml.core.runconfig.EggLibrary>]
Eibibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van eierbibliotheken |
|
jar_libraries
Vereist
|
list[<xref:azureml.core.runconfig.JarLibrary>]
Jar-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van Jar-bibliotheken |
|
rcran_libraries
Vereist
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
RCran-bibliotheken die moeten worden gebruikt voor de Databricks-uitvoering.
Zie voor meer informatie over de specificatie van RCran-bibliotheken |
|
compute_target
Vereist
|
[Vereist] Azure Databricks Compute. Voordat u DatabricksStep kunt gebruiken om uw scripts of notebooks uit te voeren in een Azure Databricks-werkruimte, moet u de Azure Databricks-werkruimte toevoegen als rekendoel aan uw Azure Machine Learning-werkruimte. |
|
allow_reuse
Vereist
|
Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd. |
|
version
Vereist
|
Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven. |
|
permit_cluster_restart
Vereist
|
als existing_cluster_id is opgegeven, geeft deze parameter aan of het cluster namens de gebruiker opnieuw kan worden opgestart. |
Methoden
| create_node |
Maak een knooppunt op basis van de Databricks-stap en voeg dit toe aan de opgegeven grafiek. Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn met deze stap wordt geïnstantieerd, worden in Azure ML automatisch de parameters doorgegeven die zijn vereist via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt. |
create_node
Maak een knooppunt op basis van de Databricks-stap en voeg dit toe aan de opgegeven grafiek.
Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn met deze stap wordt geïnstantieerd, worden in Azure ML automatisch de parameters doorgegeven die zijn vereist via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.
create_node(graph, default_datastore, context)
Parameters
| Name | Description |
|---|---|
|
graph
Vereist
|
Het grafiekobject waaraan het knooppunt moet worden toegevoegd. |
|
default_datastore
Vereist
|
Het standaardgegevensarchief. |
|
context
Vereist
|
<xref:azureml.pipeline.core._GraphContext>
De grafiekcontext. |
Retouren
| Type | Description |
|---|---|
|
Het gemaakte knooppunt. |