Delen via


Verbinding maken met StreamSets

Belangrijk

Deze functie bevindt zich in openbare preview.

StreamSets helpt u bij het beheren en bewaken van uw gegevensstroom gedurende de gehele levenscyclus. Dankzij de systeemeigen integratie van StreamSets met Azure Databricks en Delta Lake kunt u eenvoudig gegevens ophalen uit verschillende bronnen en uw pijplijnen beheren.

Bekijk de volgende YouTube-video (10 minuten) voor een algemene demonstratie van StreamSets.

Hier volgen de stappen voor het gebruik van StreamSets met Azure Databricks.

Stap 1: Een persoonlijk databricks-toegangstoken genereren

StreamSets verifieert met Azure Databricks met behulp van een persoonlijk toegangstoken van Azure Databricks.

Notitie

Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.

Stap 2: Een cluster instellen ter ondersteuning van integratiebehoeften

StreamSets schrijft gegevens naar een Azure Data Lake Storage-pad en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake Storage-pad.

Beveiligde toegang tot een Azure Data Lake Storage-pad

Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor een Azure-opslagaccount (aanbevolen) of een Service-principal voor Microsoft Entra ID gebruiken.

Een toegangssleutel voor een Azure-opslagaccount gebruiken

U kunt een toegangssleutel voor een opslagaccount configureren in het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem dat wordt gebruikt voor faseringsgegevens en de ADLS-container en het bestandssysteem waar u de Delta Lake-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de sleutel, volgt u de stappen in Verbinding maken met Azure Data Lake Storage en Blob Storage.

Een Microsoft Entra ID-service-principal gebruiken

U kunt een service-principal configureren in het Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor faseringsgegevens en de ADLS-container waar u de Delta-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de service-principal, volgt u de stappen in Access ADLS met een service-principal.

De clusterconfiguratie opgeven

  1. Stel de clustermodus in op Standard.

  2. Stel databricks Runtime-versie in op Runtime: 6.3 of hoger.

  3. Geoptimaliseerde schrijfbewerkingen en automatische compressie inschakelen door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configureer uw cluster, afhankelijk van uw integratie- en schaalbehoeften.

Zie de referentie voor compute-configuratie voor meer informatie over de clusterconfiguratie.

Zie Verbindingsgegevens ophalen voor een Azure Databricks-rekenresource voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.

Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster

Als u een Azure Databricks-cluster wilt verbinden met StreamSets, hebt u de volgende eigenschappen van de JDBC-/ODBC-verbinding nodig:

  • JDBC-URL
  • HTTP-pad

Stap 4: StreamSets ophalen voor Azure Databricks

Meld u aan voor StreamSets voor Databricks als u nog geen StreamSets-account hebt. U kunt gratis aan de slag en upgraden wanneer u klaar bent; zie prijzen voor StreamSets DataOps Platform.

Stap 5: Meer informatie over het gebruik van StreamSets om gegevens te laden in Delta Lake

Begin met een voorbeeldpijplijn of zie Gegevens laden in Databricks Delta Lake voor meer informatie over het bouwen van een pijplijn die gegevens opneemt in Delta Lake.

Aanvullende bronnen

Ondersteuning