Verwaltete Verbinder in Lakeflow Connect

Wichtig

Verwaltete Konnektoren in Lakeflow Connect befinden sich in verschiedenen Release-Status.

Dieser Artikel enthält eine Übersicht über verwaltete Connectors in Databricks Lakeflow Connect zum Aufnehmen von Daten aus SaaS-Anwendungen und -Datenbanken. Die resultierende Aufnahmepipeline wird vom Unity-Katalog gesteuert und durch serverlose Rechenkapazität sowie Lakeflow Spark Declarative Pipelines unterstützt. Verwaltete Connectors nutzen effiziente inkrementelle Lese- und Schreibvorgänge, um die Erfassung von Daten schneller, skalierbarer und kosteneffizienter zu gestalten, während Ihre Daten für den nachgeschalteten Verbrauch frisch bleiben.

Komponenten des SaaS Konnektors

Ein SaaS-Connector verfügt über die folgenden Komponenten:

Komponente	BESCHREIBUNG
Verbindung	Ein sicherungsfähiges Unity-Katalog-Objekt, das Authentifizierungsdetails für die Anwendung speichert.
Aufnahmepipeline	Eine Pipeline, die die Daten aus der Anwendung in die Zieltabellen kopiert. Die Pipeline zum Einbinden von Daten wird auf Serverless-Compute ausgeführt.
Ziel-Tabellen	Die Tabellen, in denen die Aufnahmepipeline die Daten schreibt. Hierbei handelt es sich um Streamingtabellen, bei denen es sich um Delta-Tabellen mit zusätzlicher Unterstützung für die inkrementelle Datenverarbeitung handelt.

Diagramm der SaaS Konnektor Komponenten

Komponenten des Datenbankkonnektors

Ein Datenbankconnector verfügt über die folgenden Komponenten:

Komponente	BESCHREIBUNG
Verbindung	Ein sicherungsfähiges Unity-Katalog-Objekt, das Authentifizierungsdetails für die Datenbank speichert.
Gateway für die Einbindung	Eine Pipeline, die Momentaufnahmen, Änderungsprotokolle und Metadaten aus der Quelldatenbank extrahiert. Das Gateway läuft auf klassischer Rechenleistung und läuft kontinuierlich, um Änderungen zu erfassen, bevor die Änderungsprotokolle in der Ursprungsdatenbank gekürzt werden können.
Staging-Storage	Ein Unity-Katalogvolume, das extrahierte Daten vorübergehend speichert, bevor sie auf die Zieltabelle angewendet wird. Auf diese Weise können Sie Ihre Aufnahmepipeline in jedem gewünschten Zeitplan ausführen, auch wenn das Gateway kontinuierlich Änderungen erfasst. Es hilft auch bei der Wiederherstellung nach Ausfällen. Sie erstellen automatisch ein Staging Storage Volume, wenn Sie das Gateway bereitstellen, und Sie können den Katalog und das Schema, in dem es sich befindet, anpassen. Daten werden nach 30 Tagen automatisch aus dem Staging gelöscht.
Aufnahmepipeline	Eine Pipeline, die die Daten aus dem Stagingspeicher in die Zieltabellen verschiebt. Die Pipeline wird auf Serverless-Compute ausgeführt.
Ziel-Tabellen	Die Tabellen, in denen die Aufnahmepipeline die Daten schreibt. Hierbei handelt es sich um Streamingtabellen, bei denen es sich um Delta-Tabellen mit zusätzlicher Unterstützung für die inkrementelle Datenverarbeitung handelt.

Diagramm der Komponenten des Datenbankkonnektors

Orchestrierung

Sie können Ihre Erfassungspipeline nach ein oder mehreren benutzerdefinierten Zeitplänen ausführen. Für jeden Zeitplan, den Sie einer Pipeline hinzufügen, erstellt Lakeflow Connect automatisch einen Auftrag dafür. Die Pipeline zum Einbinden von Daten ist eine Aufgabe innerhalb eines Jobs. Sie können dem Auftrag optional weitere Aufgaben hinzufügen.

Pipeline-Orchestrierungsdiagramm für SaaS-Connectors

Bei Datenbankkonnektoren wird das Ingestion Gateway in einem eigenen Job als kontinuierliche Aufgabe ausgeführt.

Pipeline-Orchestrierungsdiagramm für Datenbank-Connectoren

Inkrementelle Erfassung

Lakeflow Connect verwendet die inkrementelle Aufnahme, um die Pipelineeffizienz zu verbessern. Beim ersten Ausführen Ihrer Pipeline bindet es alle ausgewählten Daten aus der Quelle ein. Parallel werden Änderungen an den Quelldaten nachverfolgt. Bei jedem weiteren Durchlauf der Pipeline nutzt sie diese Änderungsverfolgung, um nach Möglichkeit nur die Daten zu übernehmen, die sich gegenüber dem vorherigen Durchlauf geändert haben.

Der genaue Ansatz hängt davon ab, was in Ihrer Datenquelle verfügbar ist. Sie können z. B. sowohl die Änderungsnachverfolgung als auch die Änderungsdatenerfassung (CDC) mit SQL Server verwenden. Im Gegensatz dazu wählt der Salesforce-Connector eine Cursorspalte aus einer festgelegten Liste von Optionen aus.

Einige Quellen oder bestimmte Tabellen unterstützen derzeit keine inkrementelle Aufnahme. Databricks plant, die Abdeckung für inkrementelle Unterstützung zu erweitern.

Vernetzung

Es gibt mehrere Optionen zum Herstellen einer Verbindung mit einer SaaS-Anwendung oder -Datenbank.

Konnektoren für SaaS-Anwendungen greifen auf die APIs der Quelle zu. Sie sind auch automatisch mit der serverless Egress-Steuerung kompatibel.
Connectors für Clouddatenbanken können über einen privaten Link eine Verbindung mit der Quelle herstellen. Wenn Ihr Arbeitsbereich über ein virtuelles Netzwerk (VNet) oder eine Virtual Private Cloud (VPC) verfügt, das bzw. die mit dem VNet oder der VPC, in dem bzw. der Ihre Datenbank gehostet wird, gepeert ist, können Sie das Ingestion Gateway auch darin bereitstellen.
Connectors für lokale Datenbanken können eine Verbindung mit Diensten wie AWS Direct Connect und Azure ExpressRoute herstellen.

Einsatz

Sie können Aufnahmepipelinen mithilfe von Databricks Asset Bundles bereitstellen, die bewährte Methoden wie Quellcodeverwaltung, Codeüberprüfung, Tests und kontinuierliche Integration und Übermittlung (CI/CD) ermöglichen. Bundles werden mithilfe der Databricks CLI verwaltet und können in verschiedenen Zielarbeitsbereichen ausgeführt werden, z. B. Entwicklung, Staging und Produktion.

Wiederherstellung nach Fehlern

Als vollständig verwalteter Dienst zielt Lakeflow Connect darauf ab, Probleme nach Möglichkeit automatisch zu beheben. Wenn zum Beispiel ein Konnektor ausfällt, versucht er es automatisch mit exponentiellem Backoff erneut.

Es ist jedoch möglich, dass ein Fehler Ihre Intervention erfordert (z. B. wenn Anmeldeinformationen ablaufen). In diesen Fällen versucht der Verbinder, fehlende Daten zu vermeiden, indem die letzte Position des Cursors gespeichert wird. Es kann dann beim nächsten Ausführen der Pipeline, wenn möglich, von dieser Position aus weitermachen.

Überwachung

Lakeflow Connect bietet robuste Warnungen und Überwachungen, die Ihnen bei der Wartung Ihrer Pipelines helfen. Dazu gehören Ereignisprotokolle, Clusterprotokolle, Pipelineintegritätsmetriken und Datenqualitätsmetriken.

Kompatibilität von Funktionen

In der folgenden Tabelle sind die Featureverfügbarkeit für jeden verwalteten Aufnahmeconnector zusammengefasst. Weitere Features und Einschränkungen finden Sie in der Dokumentation zu Ihrem spezifischen Connector.

Merkmal	Google Analytics	MySQL	Netsuite	Salesforce	Arbeitstag	SQL Server	PostgreSQL	ServiceNow	SharePoint
Der Status	Allgemein verfügbar	Public Preview	Public Preview	Allgemein verfügbar	Allgemein verfügbar	Allgemein verfügbar	Public Preview	Allgemein verfügbar	Beta
Benutzeroberflächenbasierte Pipelineerstellung	Nein		Ja	Ja	Ja	Ja		Ja	Nein
API-basierte Pipeline-Erstellung	Ja		Ja	Ja	Ja	Ja		Ja	Ja
Databricks-Ressourcenpakete	Ja		Ja	Ja	Ja	Ja		Ja	Ja
Inkrementelle Erfassung	Ja		Ja	Ja – Mit einer temporären Ausnahme für Formelfelder. Ausführliche Informationen finden Sie unter "Wie wird der Connector inkrementell Updates abrufen?".	Ja	Ja		Ja – Mit Ausnahmen, wenn die Tabelle kein Cursorfeld enthält.	Ja
Unity Catalog Governance	Ja		Ja	Ja	Ja	Ja		Ja	Ja
Orchestrierung mit Databricks-Workflows	Ja		Ja	Ja	Ja	Ja		Ja	Ja
SCD Typ 2	Ja		Ja	Ja	Ja	Ja		Ja	Ja
API-basierte Spaltenauswahl und -abwahl	Ja		Ja	Ja	Ja	Ja		Ja	Ja
Automatisierte Schemaentwicklung: Neue und gelöschte Spalten	Ja		Ja	Ja	Ja	Ja		Ja	Ja
Automatisierte Schemaentwicklung: Datentypänderungen	Nein		Nein	Nein	Nein	Nein		Nein	Nein
Automatische Schemaentwicklung: Spaltenumbenennungen	Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt.	Behandelt als neue Spalte (neuer Name) und gelöschte Spalte (alter Name).	Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt.	Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt.	Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt.	Nein – Wenn DDL-Objekte aktiviert sind, kann der Verbinder die Spalte umbenennen. Wenn DDL-Objekte nicht aktiviert sind, behandelt der Connector dies als neue Spalte (neuer Name) und eine gelöschte Spalte (alter Name). In beiden Fällen ist eine vollständige Aktualisierung erforderlich.	Nein – Wenn DDL-Objekte aktiviert sind, kann der Verbinder die Spalte umbenennen. Wenn DDL-Objekte nicht aktiviert sind, behandelt der Connector dies als neue Spalte (neuer Name) und eine gelöschte Spalte (alter Name). In beiden Fällen ist eine vollständige Aktualisierung erforderlich.	Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt.	Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt.
Automatisierte Schemaentwicklung: Neue Tabellen	Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.	Wenn Sie das gesamte Schema aufnehmen. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.	Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.	Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.	Nicht verfügbar	Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.	Wenn Sie das gesamte Schema aufnehmen. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.	Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.	Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an.
Maximale Anzahl von Tabellen pro Pipeline	250	250	200	250	250	250	250	250	250

Authentifizierungsmethoden

In der folgenden Tabelle sind die unterstützten Authentifizierungsmethoden für jeden verwalteten Aufnahmeconnector aufgeführt. Databricks empfiehlt, OAuth U2M oder OAuth M2M nach Möglichkeit zu verwenden. Wenn Ihr Connector OAuth U2M oder OAuth M2M unterstützt, werden die Standardauthentifizierung und OAuth mit manueller Tokenaktualisierung als Legacyauthentifizierungsmethoden betrachtet.

Verbinder	OAuth U2M	OAuth M2M	OAuth (manuelles Aktualisierungstoken)	Standardauthentifizierung (Benutzername/Kennwort)	Standardauthentifizierung (JSON-Schlüssel des Dienstkontos)	Tokenbasierte Authentifizierung
Zusammenfluss	Ja	Nein	Nein	Nein	Nein	Nein
Google Analytics Rohdaten	Ja	Nein	Nein	Nein	Ja (nur API)	Nein
MySQL	Nein	Nein	Nein	Ja	Nein	Nein
Netsuite	Nein	Nein	Nein	Nein	Nein	Ja
Salesforce	Ja	Nein	Nein	Nein	Nein	Nein
ServiceNow	Ja	Nein	Ja (nur API)	Nein	Nein	Nein
SharePoint	Ja	Ja (öffentliche Vorschau)	Ja	Nein	Nein	Nein
SQL Server	Ja	Ja	Nein	Nein	Ja	Nein
PostgreSQL	Nein	Nein	Nein	Ja	Nein	Nein
Workday-Reports	Nein	Nein	Ja	Ja	Nein	Nein

Abhängigkeit von externen Diensten

Databricks SaaS, die Datenbank und andere vollständig verwaltete Connectors hängen von der Verfügbarkeit, Kompatibilität und Stabilität der Anwendung, Datenbank oder externen Dienste ab, mit denen sie verbunden sind. Databricks kontrolliert diese externen Dienste nicht und hat daher (falls vorhanden) eingeschränkten Einfluss auf ihre Änderungen, Updates und Wartungen.

Wenn Änderungen, Unterbrechungen oder Umstände im Zusammenhang mit einem externen Dienst den Betrieb eines Connectors behindern oder unpraktisch darstellen, kann Databricks die Aufrechterhaltung dieses Connectors einstellen oder beenden. Databricks wird angemessene Anstrengungen unternehmen, um Kunden darüber zu informieren, dass die Wartung eingestellt oder eingestellt wird, einschließlich Aktualisierungen der anwendbaren Dokumentation.

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-20