Gegevens onboarden vanuit Azure Data Lake Storage

In dit artikel wordt beschreven hoe u gegevens kunt onboarden naar een nieuwe Azure Databricks-werkruimte vanuit Azure Data Lake Storage. U leert hoe u veilig toegang krijgt tot brongegevens in een opslaglocatie voor cloudobjecten die overeenkomt met een Unity Catalog-volume (aanbevolen) of een externe locatie voor Unity Catalog. Vervolgens leert u hoe u de gegevens stapsgewijs opneemt in een beheerde tabel van Unity Catalog met behulp van automatisch laden met Lakeflow Spark-declaratieve pijplijnen.

Notitie

Zie Streamingtabellen gebruiken in Databricks SQL als u gegevens wilt onboarden in Databricks SQL in plaats van in een notebook.

Voordat u begint

Als u geen beheerder bent, wordt in dit artikel ervan uitgegaan dat een beheerder u het volgende heeft verstrekt:

Toegang tot een Azure Databricks-werkruimte waarvoor Unity Catalog is ingeschakeld. Zie Aan de slag met Unity Catalog voor meer informatie.
De READ VOLUME machtiging voor het externe volume van de Unity Catalog of de READ FILES machtiging voor de externe locatie van de Unity Catalog die overeenkomt met de cloudopslaglocatie die uw brongegevens bevat. Zie Machtigingen verlenen op een externe locatie voor meer informatie
Het pad naar de brongegevens.

Voorbeeld van volumepad: /Volumes/<catalog>/<schema>/<volume>/<path>/<folder>

Voorbeeld van extern locatiepad: abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
De USE SCHEMA en CREATE TABLE bevoegdheden voor het schema waarnaar u gegevens wilt laden.
Machtiging voor het maken van clusters of toegang tot een clusterbeleid dat een pijplijncluster definieert (cluster_type veld ingesteld op dlt).

Als het pad naar uw brongegevens een volumepad is, moet uw cluster Databricks Runtime 13.3 LTS of hoger uitvoeren.

Belangrijk

Als u vragen hebt over deze vereisten, neemt u contact op met uw accountbeheerder.

Stap 1: Een cluster maken

Ga als volgt te werk om een cluster te maken:

Meld u aan bij uw Azure Databricks-werkruimte.
Klik in de zijbalk op Nieuw>cluster.
Geef in de gebruikersinterface van clusters een unieke naam op voor uw cluster.
Als het pad naar uw brongegevens een volumepad is, selecteert u voor de Runtime-versie van Databricks Runtime 13.2 of hoger.
Klik op Cluster maken.

Stap 2: Een notebook voor gegevensverkenning maken

In deze sectie wordt beschreven hoe u een notebook voor gegevensverkenning maakt, zodat u uw gegevens begrijpt voordat u uw gegevenspijplijn maakt.

Klik in de zijbalk op +Nieuw>notitieblok.

Het notebook wordt automatisch gekoppeld aan het laatste cluster dat u hebt gebruikt (in dit geval het cluster dat u in stap 1 hebt gemaakt: een cluster maken).
Voer een naam in voor het notitieblok.
Klik op de taalknop en selecteer Python of SQL in het vervolgkeuzemenu. Python is standaard geselecteerd.
Als u de gegevenstoegang tot uw brongegevens in ADLS wilt bevestigen, plakt u de volgende code in een notebookcel, klikt u op en vervolgens op Cel uitvoeren.

SQL
```
LIST '<path-to-source-data>'
```
Python
```
%fs ls '<path-to-source-data>'
```
Vervang <path-to-source-data> door het pad naar de map die uw gegevens bevat.

Hiermee wordt de inhoud weergegeven van de map die de gegevensset bevat.
Als u een voorbeeld van de records wilt weergeven om de inhoud en opmaak van elke record beter te begrijpen, plakt u het volgende in een notebookcel, klikt u op en vervolgens op Cel uitvoeren.

SQL
```
SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
```
Python
```
spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
```
Vervang de volgende waarden:
- <file-format>: Een ondersteunde bestandsindeling. Zie opties voor bestandsindeling.
- <path to source data>: het pad naar een bestand in de map met uw gegevens.
Hiermee worden de eerste tien records uit het opgegeven bestand weergegeven.

Stap 3: Onbewerkte gegevens opnemen

Ga als volgt te werk om onbewerkte gegevens op te nemen:

Klik in de zijbalk op Nieuw>notitieblok.

Het notebook wordt automatisch gekoppeld aan het laatste cluster dat u hebt gebruikt (in dit geval het cluster dat u eerder in dit artikel hebt gemaakt).
Voer een naam in voor het notitieblok.
Klik op de taalknop en selecteer Python of SQL in het vervolgkeuzemenu. Python is standaard geselecteerd.

Plak de volgende code in een notebookcel:

SQL

CREATE OR REFRESH STREAMING TABLE
  <table-name>
AS SELECT
  *
FROM
  STREAM read_files(
    '<path-to-source-data>',
    format => '<file-format>'
  )

Python

@dp.table(table_properties={'quality': 'bronze'})
def <table-name>():
  return (
     spark.readStream.format('cloudFiles')
     .option('cloudFiles.format', '<file-format>')
     .load(f'{<path-to-source-data>}')
 )

Vervang de volgende waarden:

<table-name>: Een naam voor de tabel die de opgenomen records bevat.
<path-to-source-data>: het pad naar de brongegevens.
<file-format>: Een ondersteunde bestandsindeling. Zie opties voor bestandsindeling.

Notitie

Lakeflow Spark Declarative Pipelines is niet ontworpen om interactief te worden uitgevoerd in notebook cellen. Als u een cel uitvoert in een notebook die de syntaxis van declaratieve pijplijnen van Lakeflow Spark bevat, wordt er een bericht gegeven of de query syntactisch geldig is, maar de querylogica wordt niet uitgevoerd. De volgende stap beschrijft hoe u een pijplijn maakt op basis van het notebook voor gegevensopname dat u zojuist heeft aangemaakt.

Stap 4: Een pijplijn maken en publiceren

Ga als volgt te werk om een pijplijn te maken en te publiceren naar Unity Catalog:

Klik in uw werkruimte op Taken en pijplijnen in de zijbalk.
Klik onder Nieuw op ETL-pijplijn.
Voer een naam in voor uw pijplijn.
Voor pijplijnmodus selecteer Getriggerd.
Selecteer voor broncode het notebook dat de broncode van uw pijplijn bevat.
Selecteer Unity Catalog voor Bestemming.
Om ervoor te zorgen dat uw tabel wordt beheerd door Unity Catalog en elke gebruiker met toegang tot het bovenliggende schema een query kan uitvoeren, selecteert u een catalogus en een doelschema in de vervolgkeuzelijsten.
Als u geen machtiging voor het maken van clusters hebt, selecteert u een clusterbeleid dat declaratieve Pijplijnen van Lakeflow Spark ondersteunt in de vervolgkeuzelijst.
Voor Geavanceerd stelt u het kanaal in op Preview.
Accepteer alle andere standaardwaarden en klik op Maken.

Stap 5: De pijplijn plannen

Ga als volgt te werk om de pijplijn te plannen:

Klik in uw werkruimte op Taken en pijplijnen in de zijbalk.
Klik op de naam van de pijplijn die u wilt plannen.
Klik op Schema>planning toevoegen.
Voer een naam in voor de taaknaam.
Stel de Planning in op Gepland.
Geef de periode, begintijd en tijdzone op.
Configureer een of meer e-mailadressen voor het ontvangen van waarschuwingen bij het starten, slagen of mislukken van de pijplijn.
Klik op Maken.

Volgende stappen

Gebruikers toegang verlenen tot de nieuwe tabel. Zie Unity Catalog-bevoegdheden en beveiligbare objecten voor meer informatie.
Gebruikers met toegang tot de nieuwe tabel kunnen nu een query uitvoeren op de tabel in een notebook of de Databricks SQL-editor gebruiken.

Feedback

Is deze pagina nuttig?

Last updated on 2025-11-13

Delen via

Gegevens onboarden vanuit Azure Data Lake Storage

Voordat u begint

Stap 1: Een cluster maken

Stap 2: Een notebook voor gegevensverkenning maken

SQL

Python

SQL

Python

Stap 3: Onbewerkte gegevens opnemen

SQL

Python

Stap 4: Een pijplijn maken en publiceren

Stap 5: De pijplijn plannen

Volgende stappen

Feedback

Aanvullende resources