Freigeben über


Data Warehouse-Architektur

Data Warehousing bezieht sich auf das Sammeln und Speichern von Daten aus mehreren Quellen, sodass schnell auf Geschäftserkenntnisse und Berichte zugegriffen werden kann. Dieser Artikel enthält wichtige Konzepte zum Erstellen eines Data Warehouse in Ihrem Data Lakehouse.

Datenlagerung in Ihrem Lakehouse

Die Lakehouse-Architektur und Databricks SQL stellen Data Warehousing-Cloudfunktionen in Ihren Data Lakes zur Verfügung. Mit vertrauten Datenstrukturen, Beziehungen und Verwaltungstools können Sie ein leistungsfähiges, kostengünstiges Data Warehouse modellieren, das direkt auf Ihrem Data Lake ausgeführt wird. Weitere Informationen finden Sie unter Was ist ein Seehaus?

Lakehouse-Architektur mit einer obersten Ebene, die Data Warehouse, Datentechnik, Datenstreaming und Data Science und ML umfasst

Wie bei einem herkömmlichen Data Warehouse modellieren Sie Daten entsprechend den Geschäftsanforderungen und dienen dann ihren Endbenutzern für Analysen und Berichte. Im Gegensatz zu einem herkömmlichen Data Warehouse können Sie vermeiden, dass Ihre Geschäftsanalysedaten isoliert werden oder redundante Kopien erstellt werden, die schnell veraltet werden.

Wenn Sie ein Data Warehouse in Ihrem Lakehouse erstellen, können Sie alle Ihre Daten in ein einzelnes System integrieren und Die Vorteile von Features wie Unity Catalog und Delta Lake nutzen.

Unity Catalog fügt ein einheitliches Governancemodell hinzu, sodass Sie den Datenzugriff sichern und überwachen und Informationen zu nachgelagerten Tabellen bereitstellen können. Delta Lake fügt ACID-Transaktionen und Schemaentwicklung hinzu, unter anderem leistungsstarke Tools, um Ihre Daten zuverlässig, skalierbar und qualitativ hochwertig zu halten.

Was ist Databricks SQL?

Hinweis

Databricks SQL Serverless ist in Azure China nicht verfügbar. Databricks SQL ist in Azure Government-Regionen nicht verfügbar.

Databricks SQL ist die Sammlung von Diensten, die Data Warehouse-Funktionen und Leistung für Ihre vorhandenen Data Lakes bereitstellen. Databricks SQL unterstützt offene Formate und standard ANSI SQL. Mit einem in die Plattform integrierten SQL-Editor und Dashboardtools können Teammitglieder direkt im Arbeitsbereich mit anderen Azure Databricks-Benutzer zusammenarbeiten. Databricks SQL ist auch in eine Vielzahl von Tools integriert, sodass Analysten Abfragen und Dashboards in ihren bevorzugten Umgebungen erstellen können, ohne sich an eine neue Plattform anzupassen.

Databricks SQL stellt allgemeine Computeressourcen bereit, die für die Tabellen im Seehaus ausgeführt werden. Databricks SQL wird von SQL-Warehouses unterstützt, früher als SQL-Endpunkte bezeichnet, und bietet skalierbare SQL-Computeressourcen, die vom Speicher entkoppelt werden.

Weitere Informationen zu SQL-Spicher-Standardwerten und -Optionen erhalten Sie unter SQL-Speicher.

Databricks SQL ist in Den Unity-Katalog integriert, sodass Sie Datenressourcen von einem Ort aus ermitteln, überwachen und steuern können. Weitere Informationen finden Sie im Unity-Katalog?

Datenmodellierung auf Azure Databricks

Ein Seehaus unterstützt eine Vielzahl von Modellierungsstilen. Die folgende Abbildung zeigt, wie Daten kuratiert und modelliert werden, während sie sich durch verschiedene Schichten eines Seehauses bewegt.

Ein Diagramm mit verschiedenen Datenmodellen auf jeder Ebene der Medallion Lakehouse-Architektur.

Medallion-Architektur

Die Medallion-Architektur ist ein Datenentwurfsmuster, das eine Reihe inkrementell verfeinerter Datenebenen beschreibt, die eine grundlegende Struktur im Seehaus bieten. Die Bronze-, Silber- und Goldschichten bedeuten eine zunehmende Datenqualität, wobei Gold die höchste Qualität darstellt. Weitere Informationen finden Sie unter Was ist die Medallion Lakehouse-Architektur?.

Innerhalb eines Lakehouse kann jede Ebene eine oder mehrere Tabellen enthalten. Das Data Warehouse wird in der Silver-Schicht modelliert und speist spezielle Data Marts in der Gold-Schicht.

Bronzeschicht

Daten können in beliebigem Format und durch eine beliebige Kombination von Batch- oder Streamingtransaktionen in Ihr Lakehouse gelangen. Auf der Bronzeebene werden alle Rohdaten im ursprünglichen Format empfangen. Diese Daten werden in Delta-Tabellen konvertiert.

Silberschicht

Die Silberschicht vereint die Daten aus verschiedenen Quellen. Für den Teil des Unternehmens, der sich auf Data Science- und Machine Learning-Anwendungen konzentriert, beginnen Sie mit der Erstellung aussagekräftiger Datenressourcen. Dieser Prozess ist oft durch einen Fokus auf Geschwindigkeit und Agilität gekennzeichnet.

Die Silberschicht ist auch der Ort, an dem Sie Daten aus unterschiedlichen Quellen sorgfältig integrieren können, um ein Data Warehouse in Übereinstimmung mit Ihren bestehenden Geschäftsprozessen zu erstellen. Diese Daten folgen häufig einem Dritten Normalformular (3NF) oder einem Data Vault-Modell. Wenn Sie Primär- und Fremdschlüsseleinschränkungen angeben, können Endbenutzer Tabellenbeziehungen verstehen, wenn Sie Unity-Katalog verwenden. Ihr Data Warehouse sollte als einzige Quelle der Wahrheit für Ihre Data Marts dienen.

Für das Data Warehouse selbst gilt ein vordefiniertes Schema (Schema-on-Write, Schema bei Schreibvorgängen), und es ist atomisch. Sie ist für Änderungen optimiert, sodass Sie das Data Warehouse schnell an Ihre aktuellen Anforderungen anpassen können, wenn sich Ihre Geschäftsprozesse ändern oder sich weiterentwickeln.

Goldschicht

Die Goldschicht ist die Präsentationsschicht, die einen oder mehrere Data Marts enthalten kann. Häufig sind Data Marts dimensionale Modelle in Form einer Reihe verwandter Tabellen, die eine bestimmte Geschäftsperspektive erfassen.

Die Goldebene enthält darüber hinaus Abteilungs- und Data Science-Sandboxes, um Self-Service-Analysen und Data Science im gesamten Unternehmen u ermöglichen. Durch die Bereitstellung dieser Sandkästen und ihrer eigenen separaten Computing-Cluster wird verhindert, dass die Business-Teams Datenkopien außerhalb des Lakehouses erstellen.

Nächste Schritte

Weitere Informationen zu den Prinzipien und bewährten Methoden zum Implementieren und Betreiben eines Lakehouse mit Azure Databricks finden Sie unter Lakehouse-Architektur.