Freigeben über


Verwaltete Verbinder in Lakeflow Connect

Wichtig

Verwaltete Konnektoren in Lakeflow Connect befinden sich in verschiedenen Release-Status.

Dieser Artikel enthält eine Übersicht über verwaltete Connectors in Databricks Lakeflow Connect zum Aufnehmen von Daten aus SaaS-Anwendungen und -Datenbanken. Die resultierende Aufnahmepipeline wird vom Unity-Katalog gesteuert und durch serverlose Rechenkapazität sowie Lakeflow Spark Declarative Pipelines unterstützt. Verwaltete Connectors nutzen effiziente inkrementelle Lese- und Schreibvorgänge, um die Erfassung von Daten schneller, skalierbarer und kosteneffizienter zu gestalten, während Ihre Daten für den nachgeschalteten Verbrauch frisch bleiben.

Komponenten des SaaS Konnektors

Ein SaaS-Connector verfügt über die folgenden Komponenten:

Komponente BESCHREIBUNG
Verbindung Ein sicherungsfähiges Unity-Katalog-Objekt, das Authentifizierungsdetails für die Anwendung speichert.
Aufnahmepipeline Eine Pipeline, die die Daten aus der Anwendung in die Zieltabellen kopiert. Die Pipeline zum Einbinden von Daten wird auf Serverless-Compute ausgeführt.
Ziel-Tabellen Die Tabellen, in denen die Aufnahmepipeline die Daten schreibt. Hierbei handelt es sich um Streamingtabellen, bei denen es sich um Delta-Tabellen mit zusätzlicher Unterstützung für die inkrementelle Datenverarbeitung handelt.

Diagramm der SaaS Konnektor Komponenten

Komponenten des Datenbankkonnektors

Ein Datenbankconnector verfügt über die folgenden Komponenten:

Komponente BESCHREIBUNG
Verbindung Ein sicherungsfähiges Unity-Katalog-Objekt, das Authentifizierungsdetails für die Datenbank speichert.
Gateway für die Einbindung Eine Pipeline, die Momentaufnahmen, Änderungsprotokolle und Metadaten aus der Quelldatenbank extrahiert. Das Gateway läuft auf klassischer Rechenleistung und läuft kontinuierlich, um Änderungen zu erfassen, bevor die Änderungsprotokolle in der Ursprungsdatenbank gekürzt werden können.
Staging-Storage Ein Unity-Katalogvolume, das extrahierte Daten vorübergehend speichert, bevor sie auf die Zieltabelle angewendet wird. Auf diese Weise können Sie Ihre Aufnahmepipeline in jedem gewünschten Zeitplan ausführen, auch wenn das Gateway kontinuierlich Änderungen erfasst. Es hilft auch bei der Wiederherstellung nach Ausfällen. Sie erstellen automatisch ein Staging Storage Volume, wenn Sie das Gateway bereitstellen, und Sie können den Katalog und das Schema, in dem es sich befindet, anpassen. Daten werden nach 30 Tagen automatisch aus dem Staging gelöscht.
Aufnahmepipeline Eine Pipeline, die die Daten aus dem Stagingspeicher in die Zieltabellen verschiebt. Die Pipeline wird auf Serverless-Compute ausgeführt.
Ziel-Tabellen Die Tabellen, in denen die Aufnahmepipeline die Daten schreibt. Hierbei handelt es sich um Streamingtabellen, bei denen es sich um Delta-Tabellen mit zusätzlicher Unterstützung für die inkrementelle Datenverarbeitung handelt.

Diagramm der Komponenten des Datenbankkonnektors

Orchestrierung

Sie können Ihre Erfassungspipeline nach ein oder mehreren benutzerdefinierten Zeitplänen ausführen. Für jeden Zeitplan, den Sie einer Pipeline hinzufügen, erstellt Lakeflow Connect automatisch einen Auftrag dafür. Die Pipeline zum Einbinden von Daten ist eine Aufgabe innerhalb eines Jobs. Sie können dem Auftrag optional weitere Aufgaben hinzufügen.

Pipeline-Orchestrierungsdiagramm für SaaS-Connectors

Bei Datenbankkonnektoren wird das Ingestion Gateway in einem eigenen Job als kontinuierliche Aufgabe ausgeführt.

Pipeline-Orchestrierungsdiagramm für Datenbank-Connectoren

Inkrementelle Erfassung

Lakeflow Connect verwendet die inkrementelle Aufnahme, um die Pipelineeffizienz zu verbessern. Beim ersten Ausführen Ihrer Pipeline bindet es alle ausgewählten Daten aus der Quelle ein. Parallel werden Änderungen an den Quelldaten nachverfolgt. Bei jedem weiteren Durchlauf der Pipeline nutzt sie diese Änderungsverfolgung, um nach Möglichkeit nur die Daten zu übernehmen, die sich gegenüber dem vorherigen Durchlauf geändert haben.

Der genaue Ansatz hängt davon ab, was in Ihrer Datenquelle verfügbar ist. Sie können z. B. sowohl die Änderungsnachverfolgung als auch die Änderungsdatenerfassung (CDC) mit SQL Server verwenden. Im Gegensatz dazu wählt der Salesforce-Connector eine Cursorspalte aus einer festgelegten Liste von Optionen aus.

Einige Quellen oder bestimmte Tabellen unterstützen derzeit keine inkrementelle Aufnahme. Databricks plant, die Abdeckung für inkrementelle Unterstützung zu erweitern.

Vernetzung

Es gibt mehrere Optionen zum Herstellen einer Verbindung mit einer SaaS-Anwendung oder -Datenbank.

  • Konnektoren für SaaS-Anwendungen greifen auf die APIs der Quelle zu. Sie sind auch automatisch mit der serverless Egress-Steuerung kompatibel.
  • Connectors für Clouddatenbanken können über einen privaten Link eine Verbindung mit der Quelle herstellen. Wenn Ihr Arbeitsbereich über ein virtuelles Netzwerk (VNet) oder eine Virtual Private Cloud (VPC) verfügt, das bzw. die mit dem VNet oder der VPC, in dem bzw. der Ihre Datenbank gehostet wird, gepeert ist, können Sie das Ingestion Gateway auch darin bereitstellen.
  • Connectors für lokale Datenbanken können eine Verbindung mit Diensten wie AWS Direct Connect und Azure ExpressRoute herstellen.

Einsatz

Sie können Aufnahmepipelinen mithilfe von Databricks Asset Bundles bereitstellen, die bewährte Methoden wie Quellcodeverwaltung, Codeüberprüfung, Tests und kontinuierliche Integration und Übermittlung (CI/CD) ermöglichen. Bundles werden mithilfe der Databricks CLI verwaltet und können in verschiedenen Zielarbeitsbereichen ausgeführt werden, z. B. Entwicklung, Staging und Produktion.

Wiederherstellung nach Fehlern

Als vollständig verwalteter Dienst zielt Lakeflow Connect darauf ab, Probleme nach Möglichkeit automatisch zu beheben. Wenn zum Beispiel ein Konnektor ausfällt, versucht er es automatisch mit exponentiellem Backoff erneut.

Es ist jedoch möglich, dass ein Fehler Ihre Intervention erfordert (z. B. wenn Anmeldeinformationen ablaufen). In diesen Fällen versucht der Verbinder, fehlende Daten zu vermeiden, indem die letzte Position des Cursors gespeichert wird. Es kann dann beim nächsten Ausführen der Pipeline, wenn möglich, von dieser Position aus weitermachen.

Überwachung

Lakeflow Connect bietet robuste Warnungen und Überwachungen, die Ihnen bei der Wartung Ihrer Pipelines helfen. Dazu gehören Ereignisprotokolle, Clusterprotokolle, Pipelineintegritätsmetriken und Datenqualitätsmetriken.

Kompatibilität von Funktionen

In der folgenden Tabelle sind die Featureverfügbarkeit für jeden verwalteten Aufnahmeconnector zusammengefasst. Weitere Features und Einschränkungen finden Sie in der Dokumentation zu Ihrem spezifischen Connector.

Merkmal Google Analytics MySQL Netsuite Salesforce Arbeitstag SQL Server PostgreSQL ServiceNow SharePoint
Der Status Allgemein verfügbar Public Preview Public Preview Allgemein verfügbar Allgemein verfügbar Allgemein verfügbar Public Preview Allgemein verfügbar Beta
Benutzeroberflächenbasierte Pipelineerstellung Nein Ja Ja Ja Ja Ja Nein
API-basierte Pipeline-Erstellung Ja Ja Ja Ja Ja Ja Ja
Databricks-Ressourcenpakete Ja Ja Ja Ja Ja Ja Ja
Inkrementelle Erfassung Ja Ja Ja – Mit einer temporären Ausnahme für Formelfelder. Ausführliche Informationen finden Sie unter "Wie wird der Connector inkrementell Updates abrufen?". Ja Ja Ja – Mit Ausnahmen, wenn die Tabelle kein Cursorfeld enthält. Ja
Unity Catalog Governance Ja Ja Ja Ja Ja Ja Ja
Orchestrierung mit Databricks-Workflows Ja Ja Ja Ja Ja Ja Ja
SCD Typ 2 Ja Ja Ja Ja Ja Ja Ja
API-basierte Spaltenauswahl und -abwahl Ja Ja Ja Ja Ja Ja Ja
Automatisierte Schemaentwicklung: Neue und gelöschte Spalten Ja Ja Ja Ja Ja Ja Ja
Automatisierte Schemaentwicklung: Datentypänderungen Nein x-Markierung nein Nein Nein Nein Nein x nicht markieren Nein Nein
Automatische Schemaentwicklung: Spaltenumbenennungen Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt.
Behandelt als neue Spalte (neuer Name) und gelöschte Spalte (alter Name).
Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. Nein – Wenn DDL-Objekte aktiviert sind, kann der Verbinder die Spalte umbenennen. Wenn DDL-Objekte nicht aktiviert sind, behandelt der Connector dies als neue Spalte (neuer Name) und eine gelöschte Spalte (alter Name). In beiden Fällen ist eine vollständige Aktualisierung erforderlich. Nein – Wenn DDL-Objekte aktiviert sind, kann der Verbinder die Spalte umbenennen. Wenn DDL-Objekte nicht aktiviert sind, behandelt der Connector dies als neue Spalte (neuer Name) und eine gelöschte Spalte (alter Name). In beiden Fällen ist eine vollständige Aktualisierung erforderlich. Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt.
Automatisierte Schemaentwicklung: Neue Tabellen Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.
Wenn Sie das gesamte Schema aufnehmen. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.
Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. Nicht verfügbar Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.
Wenn Sie das gesamte Schema aufnehmen. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.
Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.
Maximale Anzahl von Tabellen pro Pipeline 250 250 200 250 250 250 250 250 250

Authentifizierungsmethoden

In der folgenden Tabelle sind die unterstützten Authentifizierungsmethoden für jeden verwalteten Aufnahmeconnector aufgeführt. Databricks empfiehlt, OAuth U2M oder OAuth M2M nach Möglichkeit zu verwenden. Wenn Ihr Connector OAuth U2M oder OAuth M2M unterstützt, werden die Standardauthentifizierung und OAuth mit manueller Tokenaktualisierung als Legacyauthentifizierungsmethoden betrachtet.

Verbinder OAuth U2M OAuth M2M OAuth (manuelles Aktualisierungstoken) Standardauthentifizierung (Benutzername/Kennwort) Standardauthentifizierung (JSON-Schlüssel des Dienstkontos) Tokenbasierte Authentifizierung
Zusammenfluss Ja Nein Nein Nein Nein Nein
Google Analytics Rohdaten Ja Nein Nein Nein Ja (nur API) Nein
MySQL Nein Nein Nein Ja Nein Nein
Netsuite Nein Nein Nein Nein Nein Ja
Salesforce Ja Nein Nein Nein Nein Nein
ServiceNow Ja Nein Ja (nur API) Nein Nein Nein
SharePoint Ja Ja (öffentliche Vorschau) Ja Nein Nein Nein
SQL Server Ja Ja Nein Nein Ja Nein
PostgreSQL Nein Nein Nein Ja Nein Nein
Workday-Reports Nein Nein Ja Ja Nein Nein

Abhängigkeit von externen Diensten

Databricks SaaS, die Datenbank und andere vollständig verwaltete Connectors hängen von der Verfügbarkeit, Kompatibilität und Stabilität der Anwendung, Datenbank oder externen Dienste ab, mit denen sie verbunden sind. Databricks kontrolliert diese externen Dienste nicht und hat daher (falls vorhanden) eingeschränkten Einfluss auf ihre Änderungen, Updates und Wartungen.

Wenn Änderungen, Unterbrechungen oder Umstände im Zusammenhang mit einem externen Dienst den Betrieb eines Connectors behindern oder unpraktisch darstellen, kann Databricks die Aufrechterhaltung dieses Connectors einstellen oder beenden. Databricks wird angemessene Anstrengungen unternehmen, um Kunden darüber zu informieren, dass die Wartung eingestellt oder eingestellt wird, einschließlich Aktualisierungen der anwendbaren Dokumentation.