Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Databricks Asset Bundles kan rechtstreeks in de werkruimte worden gemaakt en gewijzigd.
Zie vereisten voor Databricks Asset Bundles in de werkruimte voor de vereisten voor het gebruik van bundels in de werkruimte.
Zie Wat zijn Databricks Asset Bundles?voor meer informatie over bundels.
Een bundel maken
Een bundel maken in de Databricks-werkruimte:
Navigeer naar de Git-map waar u uw bundel wilt maken.
Klik op de knop Maken en klik vervolgens op Asset bundle. U kunt ook met de rechtermuisknop klikken op de Git-map of de bijbehorende kebab in de werkruimtestructuur en op Assetbundel maken> klikken:
Geef in het dialoogvenster Maak een assetbundel een naam op voor de assetbundel, zoals totally-awesome-bundle. De bundelnaam mag alleen letters, cijfers, streepjes en onderstrepingstekens bevatten.
Kies voor Sjabloon of u een lege bundel wilt maken, een bundel met een Python-voorbeeldnotebook of een bundel waarop SQL wordt uitgevoerd. Als u de Lakeflow Pipelines Editor hebt ingeschakeld, ziet u ook een optie voor het maken van een ETL-pijplijnproject.
Voor sommige sjablonen is extra configuratie vereist. Klik op Volgende om het project te configureren.
Template Configuratieopties Declaratieve Pijplijnen van Lakeflow Spark - Standaardcatalogus die moet worden gebruikt voor de pijplijngegevens
- Persoonlijk schema gebruiken (aanbevolen) voor elke gebruiker die samenwerkt aan deze bundel
- Initiële taal voor de codebestanden in de pijplijn
Standaard Python - Een voorbeeldnotitieblok opnemen
- Een voorbeeldpijplijn opnemen
- Een Python-voorbeeldpakket opnemen
- Serverloze rekenkracht gebruiken
Standaard-SQL - SQL Warehouse-pad
- Initiële catalogus
- Persoonlijk schema gebruiken
- Eerste schema tijdens de ontwikkeling
Klik op Maken en implementeren.
Hiermee maakt u een eerste bundel in de Git-map, die de bestanden bevat voor de projectsjabloon die u hebt geselecteerd, een .gitignore Git-configuratiebestand en het vereiste Databricks Asset Bundles-bestand databricks.yml . Het databricks.yml bestand bevat de hoofdconfiguratie voor de bundel. Zie de configuratie van Databricks Asset Bundle voor meer informatie.
Wijzigingen in de bestanden in de bundel kunnen worden gesynchroniseerd met de externe opslagplaats die is gekoppeld aan de Git-map. Een Git-map kan veel bundels bevatten.
Nieuwe bestanden toevoegen aan een bundel
Een bundel bevat het databricks.yml bestand dat implementatie- en werkruimteconfiguraties definieert, bronbestanden, zoals notebooks, Python-bestanden en testbestanden, en definities en instellingen voor Databricks-resources, zoals Lakeflow-taken en Lakeflow Spark-declaratieve pijplijnen. Net als in elke werkruimtemap kunt u nieuwe bestanden toevoegen aan uw bundel.
Aanbeveling
Als u een nieuw tabblad wilt openen in de bundelweergave waarmee u bundelbestanden kunt wijzigen, gaat u naar de bundelmap in de werkruimte en klikt u vervolgens op Openen in editor rechts van de bundelnaam.
Broncodebestanden toevoegen
Als u nieuwe notitieblokken of andere bestanden wilt toevoegen aan een bundel in de gebruikersinterface van de werkruimte, gaat u naar de bundelmap en gaat u als volgt te werk:
- Klik in de rechterbovenhoek op Maken en kies een van de volgende bestandstypen die u wilt toevoegen aan uw bundel: Notebook, Bestand, Query, Dashboard.
- U kunt ook links van Delen op het kebabmenu klikken en een bestand importeren.
Opmerking
Als u wilt dat het bestand deel uitmaakt van de bundelimplementatie, moet u het bestand toevoegen aan de databricks.yml bundelconfiguratie of een taak- of pijplijndefinitiebestand maken dat het bestand bevat. Zie Een bestaande resource toevoegen aan een bundel.
Een taakdefinitie toevoegen
Bundels bevatten definities voor resources zoals taken en pijplijnen die moeten worden opgenomen in een implementatie. Deze definities worden opgegeven in YAML of Python en u kunt deze configuraties rechtstreeks in de gebruikersinterface maken en bewerken.
Een bundelconfiguratiebestand maken waarmee een taak wordt gedefinieerd:
Navigeer naar de bundelmap in de werkruimte waar u een nieuwe taak wilt definiëren.
Aanbeveling
Als u de bundel eerder hebt geopend in de editor in de werkruimte, kunt u de lijst met ontwerpcontexten van de werkruimtebrowser gebruiken om naar de bundelmap te navigeren. Zie Ontwerpcontexten.
Klik rechts van de bundelnaam op Openen in editor om naar de weergave bundeleditor te gaan.
Klik op het implementatiepictogram voor de bundel om over te schakelen naar het deelvenster Implementaties .
Klik in de sectie Bundelbronnen op Toevoegen en vervolgens op Nieuwe taakdefinitie.
Typ een naam voor de taak in het veld Taaknaam van het dialoogvenster Taakdefinitie maken . Klik op Create.
Voeg YAML toe aan het taakdefinitiebestand dat is gemaakt. Het voorbeeld van YAML definieert een taak waarmee een notebook wordt uitgevoerd:
resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
Zie de taak voor meer informatie over het definiëren van een taak in YAML. Zie Taken toevoegen aan taken in Databricks Asset Bundles voor yamL-syntaxis voor andere ondersteunde taaktakentypen.
Een pijplijn toevoegen
Een pijplijn toevoegen aan uw bundel:
Navigeer naar de bundelmap in de werkruimte waar u een nieuwe pijplijn wilt definiëren.
Aanbeveling
Als u de bundel eerder hebt geopend in de editor in de werkruimte, kunt u het contextmenu van de werkruimtebrowser gebruiken om naar de bundelmap te navigeren. Zie Ontwerpcontexten.
Klik rechts van de bundelnaam op Openen in editor om naar de weergave bundeleditor te gaan.
Klik op het implementatiepictogram voor de bundel om over te schakelen naar het deelvenster Implementaties .
Klik in de sectie Bundelbronnen op Toevoegen en vervolgens op Nieuwe pijplijndefinitie of Nieuwe ETL-pijplijn als u de Lakeflow Pipelines Editor in uw werkruimte hebt ingeschakeld. De ervaring voor het maken van pijplijnen verschilt voor deze twee opties.
Pijplijndefinitie maken
Als u nieuwe pijplijndefinitie hebt geselecteerd in het menu voor het maken van bundelresources:
- Typ een naam voor de pijplijn in het veld Pijplijnnaam van het dialoogvenster Pijplijn toevoegen aan bestaande bundel .
- Klik op Toevoegen en implementeren.
Voor een pijplijn met de naam test_pipeline waarmee een notebook wordt uitgevoerd, wordt de volgende YAML aangemaakt in een bestand test_pipeline.pipeline.yml:
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}
U kunt de configuratie wijzigen om een bestaand notebook uit te voeren. Zie de pijplijn voor meer informatie over het definiëren van een pijplijn in YAML.
ETL-pijplijn maken
Als u Nieuwe ETL-pijplijn hebt geselecteerd in het menu voor het maken van bundelresources:
Typ een naam voor de pijplijn in het veld Naam van de pijplijn toevoegen aan een bestaand bundeldialoogvenster . De naam moet uniek zijn binnen de werkruimte.
Voor het veld Persoonlijk schema gebruiken selecteert u Ja voor ontwikkelingsscenario's en Nee voor productiescenario's.
Selecteer een standaardcatalogus en een standaardschema voor de pijplijn.
Kies een taal voor de broncode van de pijplijn.
Klik op Toevoegen en implementeren.
Controleer de details in het dialoogvenster Implementeren naar dev-bevestiging en klik vervolgens op Implementeren.
Er wordt een ETL-pijplijn gemaakt met voorbeeldtabellen voor verkennen en transformeren.
Voor een pijplijn met de naam rad_pipelinewordt de volgende YAML gemaakt in een bestand rad_pipeline.pipeline.yml. Deze pijplijn is geconfigureerd voor uitvoering op serverloze berekeningen.
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .
Een bestaande resource toevoegen aan een bundel
U kunt bestaande resources, zoals pijplijnen, en ook assets zoals notebooks en andere bronbestanden toevoegen aan uw bundel. U moet ze echter definiëren in de bundelconfiguratie om ze op te nemen in uw bundelimplementatie. In het volgende voorbeeld wordt een bestaande pijplijn toegevoegd aan een bundel.
Ervan uitgaande dat u een pijplijn hebt met de naam taxifilter die het taxifilter.ipynb notebook uitvoert in uw gedeelde werkruimte:
Klik in de zijbalk van uw Azure Databricks-werkruimte op Jobs & Pipelines.
Optioneel kun je de Pijplijnen en de Mijn filters selecteren.
Selecteer de bestaande
taxifilterpijplijn.Klik op de pijplijnpagina aan de linkerkant van de knop Ontwikkelingsimplementatiemodus. Klik vervolgens op YAML-instellingen weergeven.
Klik op het kopieerpictogram om de bundelconfiguratie voor de pijplijn te kopiëren.
Navigeer naar uw bundel in Werkruimte.
Klik op het implementatiepictogram voor de bundel om over te schakelen naar het deelvenster Implementaties .
Klik in de sectie Bundelbronnen op Toevoegen en vervolgens op Nieuwe pijplijndefinitie.
Opmerking
Als u in plaats daarvan een menuopdracht nieuwe ETL-pijplijn ziet, hebt u de Lakeflow Pipelines Editor ingeschakeld. Zie Een brongestuurde pijplijn maken om een ETL-pijplijn toe te voegen aan een bundel.
Typ
taxifilterin het veld Pijplijnnaam van het dialoogvenster Pijplijn toevoegen aan bestaande bundel. Klik op Create.Plak de configuratie voor de bestaande pijplijn in het bestand. Deze voorbeeldpijplijn is gedefinieerd om het
taxifilternotebook uit te voeren:resources: pipelines: taxifilter: name: taxifilter catalog: main libraries: - notebook: path: /Workspace/Shared/taxifilter.ipynb target: taxifilter_${bundle.environment}
U kunt de bundel nu implementeren en vervolgens de pijplijnresource uitvoeren via de gebruikersinterface.