Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Auf dieser Seite wird beschrieben, wie Sie lakehouse Federation einrichten, um Verbundabfragen für MySQL-Daten auszuführen, die nicht von Azure Databricks verwaltet werden. Weitere Informationen zur Lakehouse Federation finden Sie unter Was ist Lakehouse Federation?
Um mithilfe von Lakehouse Federation eine Verbindung mit Ihrer MySQL-Datenbank herzustellen, müssen Sie Folgendes in Ihrem Azure Databricks Unity Catalog-Metastore erstellen:
- Eine Verbindung mit Ihrer MySQL-Datenbank.
- Einen Fremdkatalog, der Ihre MySQL-Datenbank in Unity Catalog spiegelt, sodass Sie die Abfragesyntax und Datengovernancetools von Unity Catalog zum Verwalten des Azure Databricks-Benutzerzugriffs auf die Datenbank verwenden können.
Vorbereitung
Anforderungen an den Arbeitsbereich:
- Der Arbeitsbereich muss für Unity Catalog aktiviert sein.
Computeanforderungen:
- Netzwerkkonnektivität von Ihrer Rechnerressource zu den Ziel-Datenbanksystemen. Weitere Informationen finden Sie unter Netzwerkempfehlungen für Lakehouse Federation.
- Azure Databricks-Berechnungen müssen Databricks Runtime 13.3 LTS oder höher verwenden und im Standard- oder Dedizierten-Zugriffsmodus ausgeführt werden.
- SQL-Lagerhäuser müssen pro oder serverlos sein und 2023.40 oder höher verwenden.
Erforderliche Berechtigungen:
- Um eine Verbindung zu erstellen, müssen Sie Metastore-Administrator oder Benutzer mit der Berechtigung „
CREATE CONNECTION“ für den Unity Catalog-Metastore sein, der an den Arbeitsbereich angefügt ist. - Um einen Fremdkatalog zu erstellen, müssen Sie über die Berechtigung „
CREATE CATALOG“ für den Metastore verfügen und entweder der Besitzer der Verbindung sein oder über die Berechtigung „CREATE FOREIGN CATALOG“ für die Verbindung verfügen.
In jedem folgenden aufgabenbasierten Abschnitt werden zusätzliche Berechtigungsanforderungen angegeben.
SSL ist erforderlich, um eine Verbindung zu erstellen.
Erstellen einer Verbindung
Eine Verbindung gibt einen Pfad und Anmeldeinformationen für den Zugriff auf ein externes Datenbanksystem an. Zum Erstellen einer Verbindung können Sie den Katalog-Explorer oder den SQL-Befehl „CREATE CONNECTION“ in einem Azure Databricks-Notebook oder im Databricks SQL-Abfrage-Editor verwenden.
Hinweis
Sie können auch die Databricks REST-API oder die Databricks CLI verwenden, um eine Verbindung zu erstellen. Weitere Informationen finden Sie unter POST /api/2.1/unity-catalog/connections und Unity Catalog-Befehle.
Erforderliche Berechtigungen: Metastore-Admin oder Benutzer mit der Berechtigung CREATE CONNECTION.
Catalog-Explorer
Klicken Sie im Azure Databricks-Arbeitsbereich auf das
Katalog.
Klicken Sie oben im Bereich Katalog auf das Symbol
Hinzufügen, und wählen Sie im Menü Verbindung hinzufügen aus.Klicken Sie alternativ auf der Seite Quick access (Schnellzugriff) auf die Schaltfläche External data > (Externe Daten), navigieren Sie zur Registerkarte Connections (Verbindungen), und klicken Sie auf Create connection (Verbindung erstellen).
Geben Sie auf der Seite Verbindungsgrundlagen des Assistenten zum Einrichten der Verbindung einen benutzerfreundlichen Verbindungsnamen ein.
Wählen Sie als Verbindungstypdie Option „MySQL” aus.
(Optional) Fügen Sie einen Kommentar hinzu.
Klicken Sie auf Next.
Geben Sie auf der Seite Authentication die folgenden Verbindungseigenschaften für Ihre MySQL-Instanz ein:
-
Host: Zum Beispiel
mysql-demo.lb123.us-west-2.rds.amazonaws.com -
Port: Zum Beispiel
3306 -
Benutzer: Zum Beispiel
mysql_user -
Kennwort: Zum Beispiel
password123
-
Host: Zum Beispiel
(Optional): Wählen Sie Serverzertifikat vertrauen. Dies ist standardmäßig deaktiviert. Wenn diese Option ausgewählt ist, verwendet die Transportschicht SSL, um den Kanal zu verschlüsseln und die Zertifikatkette zu umgehen, um die Vertrauensstellung zu überprüfen. Lassen Sie diese Einstellung auf der Standardeinstellung, es sei denn, Sie haben einen speziellen Grund, die Vertrauensüberprüfung zu umgehen.
Klicken Sie auf Create connection (Verbindung erstellen).
Geben Sie auf der Seite Kataloggrundlagen einen Namen für den Fremdkatalog ein. Ein Fremdkatalog spiegelt eine Datenbank in einem externen Datensystem, sodass Sie Abfragen und die Verwaltung des Zugriffs auf Daten in dieser Datenbank mithilfe von Azure Databricks und Unity Catalog steuern können.
(Optional) Klicken Sie auf Verbindung testen, um zu überprüfen, ob sie funktioniert.
Klicken Sie auf Katalog erstellen.
Wählen Sie auf der Seite Access die Arbeitsbereiche aus, in denen Benutzer auf den von Ihnen erstellten Katalog zugreifen können. Sie können Alle Arbeitsbereiche haben Zugriff oder Arbeitsbereichen zuweisen, anschließend die Arbeitsbereiche und dann Zuweisen auswählen.
Ändern Sie den Besitzer, der den Zugriff auf alle Objekte im Katalog verwalten kann. Beginnen Sie mit der Eingabe eines Prinzipals im Textfeld, und wählen Sie den Prinzipal dann in den zurückgegebenen Ergebnissen aus.
Gewähren Sie Berechtigungen für den Katalog. Klicken Sie auf Gewähren:
- Geben Sie die Prinzipale an, die Zugriff auf die Objekte im Katalog haben werden. Beginnen Sie mit der Eingabe eines Prinzipals im Textfeld, und wählen Sie den Prinzipal dann in den zurückgegebenen Ergebnissen aus.
- Wählen Sie die Berechtigungsvoreinstellungen aus, die den einzelnen Prinzipalen gewährt werden sollen. Standardmäßig werden allen Kontobenutzern
BROWSEgewährt.- Wählen Sie Datenleser aus dem Dropdown-Menü aus, um
readBerechtigungen für Objekte im Katalog zu gewähren. - Wählen Sie Daten-Editor aus dem Dropdownmenü aus, um
readundmodifyBerechtigungen für Objekte im Katalog zu gewähren. - Wählen Sie manuell die Berechtigungen aus, die Sie vergeben möchten.
- Wählen Sie Datenleser aus dem Dropdown-Menü aus, um
- Klicken Sie auf Gewähren.
Klicken Sie auf Next.
Geben Sie auf der Seite Metadaten Schlüssel-Wert-Paare für Tags an. Weitere Informationen finden Sie unter Tags auf sichere Unity Catalog-Objekte anwenden.
(Optional) Fügen Sie einen Kommentar hinzu.
Klicken Sie auf Speichern.
SQL
Führen Sie in einem Notebook oder im Databricks SQL-Abfrage-Editor den folgenden Befehl aus.
CREATE CONNECTION <connection-name> TYPE mysql
OPTIONS (
host '<hostname>',
port '<port>',
user '<user>',
password '<password>'
);
Es wird empfohlen, Aure Databricks-Geheimnisse anstelle von Klartext-Zeichenfolgen für vertrauliche Werte wie Anmeldeinformationen zu verwenden. Zum Beispiel:
CREATE CONNECTION <connection-name> TYPE mysql
OPTIONS (
host '<hostname>',
port '<port>',
user secret ('<secret-scope>','<secret-key-user>'),
password secret ('<secret-scope>','<secret-key-password>')
)
Wenn Sie Nur-Text-Zeichenfolgen in SQL-Notebookbefehlen verwenden müssen, vermeiden Sie das Abschneiden der Zeichenfolge, indem Sie Sonderzeichen wie $ durch \ ersetzen. Beispiel: \$.
Informationen zum Einrichten von Geheimnissen finden Sie unter Verwaltung von Geheimnissen.
Erstellen eines Fremdkatalogs
Hinweis
Wenn Sie die Benutzeroberfläche zum Erstellen einer Verbindung mit der Datenquelle verwenden, ist die Erstellung fremder Kataloge enthalten, und Sie können diesen Schritt überspringen.
Ein Fremdkatalog spiegelt eine Datenbank in einem externen Datensystem, sodass Sie Abfragen und die Verwaltung des Zugriffs auf Daten in dieser Datenbank mithilfe von Azure Databricks und Unity Catalog steuern können. Um einen fremden Katalog zu erstellen, verwenden Sie eine Verbindung mit der bereits definierten Datenquelle.
Zum Erstellen eines fremden Katalogs können Sie den Katalog-Explorer oder den SQL-Befehl „CREATE FOREIGN CATALOG“ in einem Azure Databricks-Notebook oder im Databricks SQL-Abfrage-Editor verwenden. Sie können auch die Databricks REST-API oder die Databricks CLI verwenden, um einen Katalog zu erstellen. Siehe POST /api/2.1/unity-catalog/catalogs und Unity Catalog Befehle.
Erforderliche Berechtigungen:CREATE CATALOG Berechtigung auf dem Metastore und entweder die Eigentümerschaft an der Verbindung oder die CREATE FOREIGN CATALOG Berechtigung auf der Verbindung.
Catalog-Explorer
Klicken Sie im Azure Databricks-Arbeitsbereich auf das
Katalog zum Öffnen des Katalog-Explorers.
Klicken Sie oben im Bereich Katalog auf das Symbol
Hinzufügen und wählen Sie im Menü Katalog hinzufügen.Klicken Sie alternativ auf der Seite Schnellzugriff auf die Schaltfläche Kataloge, und klicken Sie dann auf die Schaltfläche Katalog erstellen.
Befolgen Sie die Anweisungen zum Erstellen von Fremdkataloge unter Erstellen von Katalogen.
SQL
Führen Sie den folgenden SQL-Befehl in einem Notebook oder im Databricks SQL-Editor aus. Elemente in Klammern sind optional. Ersetzen Sie die folgenden Platzhalterwerte:
-
<catalog-name>: Name für den Katalog in Azure Databricks. -
<connection-name>: Das Verbindungsobjekt, das die Datenquelle, den Pfad und die Anmeldeinformationen angibt.
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>;
Unterstützte Pushdowns
Die folgenden Pushdowns werden für alle Computeressourcen unterstützt:
- Filter
- Projektionen
- Begrenzung
- Funktionen: teilweise, nur für Filterausdrücke. (Zeichenfolgenfunktionen, mathematische Funktionen, Datums-, Uhrzeit- und Zeitstempelfunktionen sowie verschiedene andere Funktionen wie Alias, Cast, SortOrder)
Die folgenden Pushdowns werden in Databricks Runtime 13.3 LTS und höher sowie in SQL-Warehouses unterstützt:
- Aggregate
- Boolesche Operatoren
- Die folgenden mathematischen Funktionen (nicht unterstützt, wenn ANSI deaktiviert ist): +, -, *, %, /
- Sortierung bei Verwendung mit einem Grenzwert
Die folgenden Pushdowns werden nicht unterstützt:
- Joins
- Windows-Funktionen
Datentypzuordnungen
Wenn Sie von MySQL zu Spark lesen, werden die Datentypen wie folgt zugeordnet:
| MySQL-Typ | Spark-Typ |
|---|---|
| bigint (falls ohne Vorzeichen), decimal | Dezimaltyp |
| tinyint*, int, Integer, Mediumint, Smallint | Integer-Typ |
| tinyint(1) | Boolescher Typ |
| bigint (falls mit Vorzeichen) | LongType |
| Schweben | FloatType |
| double | DoubleType |
| char, enum, set | Zeichentyp |
| varchar | VarcharType |
| json, longtext, mediumtext, text, tinytext | Zeichenkettentyp |
| binary, blob, varbinary, varchar binary | Binärtyp |
| bit, boolean | Boolescher Typ |
| Datum, Jahr | Datumstyp |
| Datum/Uhrzeit, Zeit, Zeitstempel** | TimestampType/TimestampNTZType |
*
tinyint(1) signed und tinyint(1) unsigned werden als boolesch behandelt und in BooleanType umgewandelt. Siehe Konnektor/J Referenz in der MySQL-Dokumentation.
** Wenn Sie aus MySQL lesen, wird MySQL Timestamp auf Spark TimestampType zugeordnet, wenn preferTimestampNTZ = false (Standard). MySQL-Timestamp wird TimestampNTZType zugeordnet, wenn preferTimestampNTZ = true ist.