Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wichtig
Verwaltete Konnektoren in Lakeflow Connect befinden sich in verschiedenen Release-Status.
Dieser Artikel enthält eine Übersicht über verwaltete Connectors in Databricks Lakeflow Connect zum Aufnehmen von Daten aus SaaS-Anwendungen und -Datenbanken. Die resultierende Aufnahmepipeline wird vom Unity-Katalog gesteuert und durch serverlose Rechenkapazität sowie Lakeflow Spark Declarative Pipelines unterstützt. Verwaltete Connectors nutzen effiziente inkrementelle Lese- und Schreibvorgänge, um die Erfassung von Daten schneller, skalierbarer und kosteneffizienter zu gestalten, während Ihre Daten für den nachgeschalteten Verbrauch frisch bleiben.
Komponenten des SaaS Konnektors
Ein SaaS-Connector verfügt über die folgenden Komponenten:
| Komponente | BESCHREIBUNG |
|---|---|
| Verbindung | Ein sicherungsfähiges Unity-Katalog-Objekt, das Authentifizierungsdetails für die Anwendung speichert. |
| Aufnahmepipeline | Eine Pipeline, die die Daten aus der Anwendung in die Zieltabellen kopiert. Die Pipeline zum Einbinden von Daten wird auf Serverless-Compute ausgeführt. |
| Ziel-Tabellen | Die Tabellen, in denen die Aufnahmepipeline die Daten schreibt. Hierbei handelt es sich um Streamingtabellen, bei denen es sich um Delta-Tabellen mit zusätzlicher Unterstützung für die inkrementelle Datenverarbeitung handelt. |
Komponenten des Datenbankkonnektors
Ein Datenbankconnector verfügt über die folgenden Komponenten:
| Komponente | BESCHREIBUNG |
|---|---|
| Verbindung | Ein sicherungsfähiges Unity-Katalog-Objekt, das Authentifizierungsdetails für die Datenbank speichert. |
| Gateway für die Einbindung | Eine Pipeline, die Momentaufnahmen, Änderungsprotokolle und Metadaten aus der Quelldatenbank extrahiert. Das Gateway läuft auf klassischer Rechenleistung und läuft kontinuierlich, um Änderungen zu erfassen, bevor die Änderungsprotokolle in der Ursprungsdatenbank gekürzt werden können. |
| Staging-Storage | Ein Unity-Katalogvolume, das extrahierte Daten vorübergehend speichert, bevor sie auf die Zieltabelle angewendet wird. Auf diese Weise können Sie Ihre Aufnahmepipeline in jedem gewünschten Zeitplan ausführen, auch wenn das Gateway kontinuierlich Änderungen erfasst. Es hilft auch bei der Wiederherstellung nach Ausfällen. Sie erstellen automatisch ein Staging Storage Volume, wenn Sie das Gateway bereitstellen, und Sie können den Katalog und das Schema, in dem es sich befindet, anpassen. Daten werden nach 30 Tagen automatisch aus dem Staging gelöscht. |
| Aufnahmepipeline | Eine Pipeline, die die Daten aus dem Stagingspeicher in die Zieltabellen verschiebt. Die Pipeline wird auf Serverless-Compute ausgeführt. |
| Ziel-Tabellen | Die Tabellen, in denen die Aufnahmepipeline die Daten schreibt. Hierbei handelt es sich um Streamingtabellen, bei denen es sich um Delta-Tabellen mit zusätzlicher Unterstützung für die inkrementelle Datenverarbeitung handelt. |
Orchestrierung
Sie können Ihre Erfassungspipeline nach ein oder mehreren benutzerdefinierten Zeitplänen ausführen. Für jeden Zeitplan, den Sie einer Pipeline hinzufügen, erstellt Lakeflow Connect automatisch einen Auftrag dafür. Die Pipeline zum Einbinden von Daten ist eine Aufgabe innerhalb eines Jobs. Sie können dem Auftrag optional weitere Aufgaben hinzufügen.
Bei Datenbankkonnektoren wird das Ingestion Gateway in einem eigenen Job als kontinuierliche Aufgabe ausgeführt.
Inkrementelle Erfassung
Lakeflow Connect verwendet die inkrementelle Aufnahme, um die Pipelineeffizienz zu verbessern. Beim ersten Ausführen Ihrer Pipeline bindet es alle ausgewählten Daten aus der Quelle ein. Parallel werden Änderungen an den Quelldaten nachverfolgt. Bei jedem weiteren Durchlauf der Pipeline nutzt sie diese Änderungsverfolgung, um nach Möglichkeit nur die Daten zu übernehmen, die sich gegenüber dem vorherigen Durchlauf geändert haben.
Der genaue Ansatz hängt davon ab, was in Ihrer Datenquelle verfügbar ist. Sie können z. B. sowohl die Änderungsnachverfolgung als auch die Änderungsdatenerfassung (CDC) mit SQL Server verwenden. Im Gegensatz dazu wählt der Salesforce-Connector eine Cursorspalte aus einer festgelegten Liste von Optionen aus.
Einige Quellen oder bestimmte Tabellen unterstützen derzeit keine inkrementelle Aufnahme. Databricks plant, die Abdeckung für inkrementelle Unterstützung zu erweitern.
Vernetzung
Es gibt mehrere Optionen zum Herstellen einer Verbindung mit einer SaaS-Anwendung oder -Datenbank.
- Konnektoren für SaaS-Anwendungen greifen auf die APIs der Quelle zu. Sie sind auch automatisch mit der serverless Egress-Steuerung kompatibel.
- Connectors für Clouddatenbanken können über einen privaten Link eine Verbindung mit der Quelle herstellen. Wenn Ihr Arbeitsbereich über ein virtuelles Netzwerk (VNet) oder eine Virtual Private Cloud (VPC) verfügt, das bzw. die mit dem VNet oder der VPC, in dem bzw. der Ihre Datenbank gehostet wird, gepeert ist, können Sie das Ingestion Gateway auch darin bereitstellen.
- Connectors für lokale Datenbanken können eine Verbindung mit Diensten wie AWS Direct Connect und Azure ExpressRoute herstellen.
Einsatz
Sie können Aufnahmepipelinen mithilfe von Databricks Asset Bundles bereitstellen, die bewährte Methoden wie Quellcodeverwaltung, Codeüberprüfung, Tests und kontinuierliche Integration und Übermittlung (CI/CD) ermöglichen. Bundles werden mithilfe der Databricks CLI verwaltet und können in verschiedenen Zielarbeitsbereichen ausgeführt werden, z. B. Entwicklung, Staging und Produktion.
Wiederherstellung nach Fehlern
Als vollständig verwalteter Dienst zielt Lakeflow Connect darauf ab, Probleme nach Möglichkeit automatisch zu beheben. Wenn zum Beispiel ein Konnektor ausfällt, versucht er es automatisch mit exponentiellem Backoff erneut.
Es ist jedoch möglich, dass ein Fehler Ihre Intervention erfordert (z. B. wenn Anmeldeinformationen ablaufen). In diesen Fällen versucht der Verbinder, fehlende Daten zu vermeiden, indem die letzte Position des Cursors gespeichert wird. Es kann dann beim nächsten Ausführen der Pipeline, wenn möglich, von dieser Position aus weitermachen.
Überwachung
Lakeflow Connect bietet robuste Warnungen und Überwachungen, die Ihnen bei der Wartung Ihrer Pipelines helfen. Dazu gehören Ereignisprotokolle, Clusterprotokolle, Pipelineintegritätsmetriken und Datenqualitätsmetriken.
Kompatibilität von Funktionen
In der folgenden Tabelle sind die Featureverfügbarkeit für jeden verwalteten Aufnahmeconnector zusammengefasst. Weitere Features und Einschränkungen finden Sie in der Dokumentation zu Ihrem spezifischen Connector.
| Merkmal | Google Analytics | MySQL | Netsuite | Salesforce | Arbeitstag | SQL Server | PostgreSQL | ServiceNow | SharePoint |
|---|---|---|---|---|---|---|---|---|---|
| Der Status | Allgemein verfügbar | Public Preview | Public Preview | Allgemein verfügbar | Allgemein verfügbar | Allgemein verfügbar | Public Preview | Allgemein verfügbar | Beta |
| Benutzeroberflächenbasierte Pipelineerstellung | Nein |
|
Ja | Ja | Ja | Ja |
|
Ja | Nein |
| API-basierte Pipeline-Erstellung | Ja |
|
Ja | Ja | Ja | Ja |
|
Ja | Ja |
| Databricks-Ressourcenpakete | Ja |
|
Ja | Ja | Ja | Ja |
|
Ja | Ja |
| Inkrementelle Erfassung | Ja |
|
Ja | Ja – Mit einer temporären Ausnahme für Formelfelder. Ausführliche Informationen finden Sie unter "Wie wird der Connector inkrementell Updates abrufen?". | Ja | Ja |
|
Ja – Mit Ausnahmen, wenn die Tabelle kein Cursorfeld enthält. | Ja |
| Unity Catalog Governance | Ja |
|
Ja | Ja | Ja | Ja |
|
Ja | Ja |
| Orchestrierung mit Databricks-Workflows | Ja |
|
Ja | Ja | Ja | Ja |
|
Ja | Ja |
| SCD Typ 2 | Ja |
|
Ja | Ja | Ja | Ja |
|
Ja | Ja |
| API-basierte Spaltenauswahl und -abwahl | Ja |
|
Ja | Ja | Ja | Ja |
|
Ja | Ja |
| Automatisierte Schemaentwicklung: Neue und gelöschte Spalten | Ja |
|
Ja | Ja | Ja | Ja |
|
Ja | Ja |
| Automatisierte Schemaentwicklung: Datentypänderungen | Nein |
|
Nein | Nein | Nein | Nein |
|
Nein | Nein |
| Automatische Schemaentwicklung: Spaltenumbenennungen | Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. |
Behandelt als neue Spalte (neuer Name) und gelöschte Spalte (alter Name). |
Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. | Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. | Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. | Nein – Wenn DDL-Objekte aktiviert sind, kann der Verbinder die Spalte umbenennen. Wenn DDL-Objekte nicht aktiviert sind, behandelt der Connector dies als neue Spalte (neuer Name) und eine gelöschte Spalte (alter Name). In beiden Fällen ist eine vollständige Aktualisierung erforderlich. | Nein – Wenn DDL-Objekte aktiviert sind, kann der Verbinder die Spalte umbenennen. Wenn DDL-Objekte nicht aktiviert sind, behandelt der Connector dies als neue Spalte (neuer Name) und eine gelöschte Spalte (alter Name). In beiden Fällen ist eine vollständige Aktualisierung erforderlich. | Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. | Ja – Wird als neue Spalte (neuer Name) und gelöschte Spalte (alter Name) behandelt. |
| Automatisierte Schemaentwicklung: Neue Tabellen | Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. |
Wenn Sie das gesamte Schema aufnehmen. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. |
Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. | Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. | Nicht verfügbar | Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. |
Wenn Sie das gesamte Schema aufnehmen. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. |
Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. | Ja – Wenn Sie das gesamte Schema importieren. Sehen Sie sich die Einschränkungen für die Anzahl der Tabellen pro Pipeline an. |
| Maximale Anzahl von Tabellen pro Pipeline | 250 | 250 | 200 | 250 | 250 | 250 | 250 | 250 | 250 |
Authentifizierungsmethoden
In der folgenden Tabelle sind die unterstützten Authentifizierungsmethoden für jeden verwalteten Aufnahmeconnector aufgeführt. Databricks empfiehlt, OAuth U2M oder OAuth M2M nach Möglichkeit zu verwenden. Wenn Ihr Connector OAuth U2M oder OAuth M2M unterstützt, werden die Standardauthentifizierung und OAuth mit manueller Tokenaktualisierung als Legacyauthentifizierungsmethoden betrachtet.
| Verbinder | OAuth U2M | OAuth M2M | OAuth (manuelles Aktualisierungstoken) | Standardauthentifizierung (Benutzername/Kennwort) | Standardauthentifizierung (JSON-Schlüssel des Dienstkontos) | Tokenbasierte Authentifizierung |
|---|---|---|---|---|---|---|
| Zusammenfluss | Ja | Nein | Nein | Nein | Nein | Nein |
| Google Analytics Rohdaten | Ja | Nein | Nein | Nein | Ja (nur API) | Nein |
| MySQL | Nein | Nein | Nein | Ja | Nein | Nein |
| Netsuite | Nein | Nein | Nein | Nein | Nein | Ja |
| Salesforce | Ja | Nein | Nein | Nein | Nein | Nein |
| ServiceNow | Ja | Nein | Ja (nur API) | Nein | Nein | Nein |
| SharePoint | Ja | Ja (öffentliche Vorschau) | Ja | Nein | Nein | Nein |
| SQL Server | Ja | Ja | Nein | Nein | Ja | Nein |
| PostgreSQL | Nein | Nein | Nein | Ja | Nein | Nein |
| Workday-Reports | Nein | Nein | Ja | Ja | Nein | Nein |
Abhängigkeit von externen Diensten
Databricks SaaS, die Datenbank und andere vollständig verwaltete Connectors hängen von der Verfügbarkeit, Kompatibilität und Stabilität der Anwendung, Datenbank oder externen Dienste ab, mit denen sie verbunden sind. Databricks kontrolliert diese externen Dienste nicht und hat daher (falls vorhanden) eingeschränkten Einfluss auf ihre Änderungen, Updates und Wartungen.
Wenn Änderungen, Unterbrechungen oder Umstände im Zusammenhang mit einem externen Dienst den Betrieb eines Connectors behindern oder unpraktisch darstellen, kann Databricks die Aufrechterhaltung dieses Connectors einstellen oder beenden. Databricks wird angemessene Anstrengungen unternehmen, um Kunden darüber zu informieren, dass die Wartung eingestellt oder eingestellt wird, einschließlich Aktualisierungen der anwendbaren Dokumentation.