Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt. De producten, services of technologieën die in deze inhoud worden genoemd, worden niet meer ondersteund. Zie de documentatie nauwkeurig.
Met Syncsort kunt u gegevenssilo's opsplitsen door verouderde, mainframe- en IBM-gegevens te integreren met Azure Databricks. U kunt eenvoudig gegevens uit deze bronnen ophalen in Delta Lake. Syncsort maakt nu deel uit van Exact.
Hier volgen de stappen voor het gebruik van Syncsort met Azure Databricks.
stap 1: een persoonlijk databricks-toegangstoken genereren
Syncsort verifieert met Azure Databricks met behulp van een persoonlijk toegangstoken van Azure Databricks.
Opmerking
Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Om tokens voor service-principals te maken, zie Tokens voor een service-principal beheren.
Stap 2: Een cluster instellen ter ondersteuning van integratiebehoeften
Syncsort schrijft gegevens naar een Azure Data Lake Storage-pad en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake Storage-pad.
Beveiligde toegang tot een Azure Data Lake Storage-pad
Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor een Azure-opslagaccount (aanbevolen) of een Service-principal voor Microsoft Entra ID gebruiken.
Een toegangssleutel voor een Azure-opslagaccount gebruiken
U kunt een toegangssleutel voor een opslagaccount configureren in het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem dat wordt gebruikt voor faseringsgegevens en de ADLS-container en het bestandssysteem waar u de Delta Lake-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de sleutel, volgt u de stappen in Verbinding maken met Azure Data Lake Storage en Blob Storage.
Een Microsoft Entra ID-serviceprincipal gebruiken
U kunt een service-principal configureren in het Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor faseringsgegevens en de ADLS-container waar u de Delta-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor gebruik van de service-principal, volgt u de stappen in Toegang tot ADLS met service-principal.
De clusterconfiguratie opgeven
Stel de clustermodus in op Standard.
Stel Databricks Runtime-versie in op een Databricks Runtime-versie.
Geoptimaliseerde schrijfbewerkingen en automatische compressie inschakelen door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled trueConfigureer uw cluster, afhankelijk van uw integratie- en schaalbehoeften.
Zie de referentie voor compute-configuratie voor meer informatie over de clusterconfiguratie.
Zie Verbindingsgegevens ophalen voor een Azure Databricks-rekenresource voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.
Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster
Als u een Azure Databricks-cluster wilt verbinden met Syncsort, hebt u de volgende eigenschappen van de JDBC-/ODBC-verbinding nodig:
- JDBC-URL
- HTTP-pad
Stap 4: Syncsort configureren met Azure Databricks
Ga naar de aanmeldingspagina van Databricks en Connect for Big Data en volg de instructies.