Erstellen einer modernen Datenplattformarchitektur für SMBs mithilfe von Microsoft Fabric und Azure Databricks
Lösungsideen
In diesem Artikel wird eine Lösungsidee beschrieben. Ihr Cloudarchitekt kann diese Anleitung verwenden, um die Hauptkomponenten für eine typische Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.
In diesem Artikel wird beschrieben, wie kleine und mittlere Unternehmen (SMBs) eine moderne Datenplattformarchitektur erstellen können, indem vorhandene Investitionen in Azure Databricks mit einer vollständig verwalteten Software as a Service (SaaS)-Datenplattform wie Microsoft Fabric kombiniert werden. SaaS-Datenplattformen sind End-to-End-Datenanalyselösungen, die problemlos in Tools wie Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 und andere Microsoft-Technologien integriert werden können.
Vereinfachte Architektur
Laden Sie eine Visio-Datei dieser Architektur herunter.
Die Interoperabilität zwischen Azure Databricks und Fabric bietet eine robuste Lösung, die die Datenfragmentierung minimiert, während die Analysefunktionen verbessert werden.
Fabric stellt einen offenen und gesteuerten Datensee bereit, der als "OneLake" bezeichnet wird, als zugrunde liegender SaaS-Speicher. OneLake verwendet das Delta-Parkettformat, das das gleiche Format wie Azure Databricks verwendet. Um auf Ihre Azure Databricks-Daten aus OneLake zuzugreifen, können Sie OneLake-Verknüpfungen in Fabric verwenden oder den Azure Databricks Unity Catalog in Fabric spiegeln. Mit dieser Integration können Sie Ihre Azure Databricks-Analysesysteme durch generative KI auf OneLake erweitern.
Sie können auch den direkten Seemodus in Power BI auf Ihren Azure Databricks-Daten in OneLake verwenden. Der Direkte Seemodus vereinfacht die Bereitstellungsschicht und verbessert die Berichtsleistung. OneLake unterstützt APIs für Azure Data Lake Storage und speichert alle tabellarischen Daten im Delta-Parkettformat.
Daher können Azure Databricks-Notizbücher OneLake-Endpunkte verwenden, um auf die gespeicherten Daten zuzugreifen. Die Erfahrung ist identisch mit dem Zugriff auf die Daten über ein Fabric Warehouse. Mit dieser Integration können Sie Fabric oder Azure Databricks verwenden, ohne Ihre Daten neu zu gestalten.
Architektur
Laden Sie eine Visio-Datei dieser Architektur herunter.
Datenfluss
Azure Data Factory: Verwenden Sie vorhandene Azure Data Factory-Pipelines, um strukturierte und unstrukturierte Daten aus Quellsystemen aufzunehmen und im vorhandenen Datensee zu landen.
Microsoft Dynamics 365: Sie können Microsoft Dynamics 365-Datenquellen verwenden, um zentrale BI-Dashboards auf erweiterten Datasets mithilfe von Azure Synapse Link oder Microsoft Fabric Link zu erstellen. Bringen Sie die zusammengeführten, verarbeiteten Daten zur weiteren Analyse wieder in Microsoft Dynamics 365 und Power BI.
Streamingdatenaufnahme: Streamingdaten können über Azure Event Hubs oder Azure IoT Hubs aufgenommen werden, je nach den Protokollen, die zum Senden dieser Nachrichten verwendet werden.
Kalten Pfad: Sie können die Streamingdaten in den zentralen Datensee für weitere Analysen, Speicherung und Berichterstellung mithilfe von Azure Databricks übertragen. Diese Daten können dann mit anderen Datenquellen für die Batchanalyse vereinheitlicht werden.
Hot path: Streamingdaten können in Echtzeit und Echtzeit-Dashboards mithilfe von Microsoft Fabric Real-Time Intelligence erstellt werden.
Azure Databricks: Die vorhandenen Azure Databricks-Notizbücher können dann wie gewohnt verwendet werden, um Datenbereinigung, Vereinheitlichung und Analysen durchzuführen. Erwägen Sie die Verwendung von Medallion-Architektur, z. B.:
Bronze, das Rohdaten enthält.
Silber, das gereinigte, gefilterte Daten enthält.
Gold, das aggregierte Daten speichert, die für Geschäftsanalysen nützlich sind.
Goldene Daten oder ein Data Warehouse: Verwenden Sie für die goldenen Daten oder ein Data Warehouse weiterhin Azure Databricks SQL, oder erstellen Sie eine Spiegelung des Azure Databricks Unity-Katalogs in Fabric. Erstellen Sie auf einfache Weise Dashboards basierend auf der serverlosen Analyse von Daten in Fabric Lakehouses, ohne dass eine Einrichtung erforderlich ist, indem Sie die Power BI-Semantikmodelle verwenden, die automatisch für alle Fabric Lakehouses erstellt werden. Fabric Data Warehouse kann auch als goldene Schicht verwendet werden, wenn analytische Anforderungen eine schnellere Berechnung erfordern.
Tools, die für Governance, Zusammenarbeit, Sicherheit, Leistung und Kostenüberwachung verwendet werden, umfassen:
Entdecken und Steuern
Microsoft Purview bietet Datenermittlungsdienste, vertrauliche Datenklassifizierung und Governance-Einblicke in die gesamte Datenstruktur.
Unity Catalog bietet zentrale Zugriffssteuerungs-, Überwachungs-, Linien- und Datenermittlungsfunktionen in Azure Databricks-Arbeitsbereichen.
Azure DevOps bietet kontinuierliche Integration und kontinuierliche Bereitstellung und andere integrierte Versionssteuerungsfeatures.
Azure Key Vault verwaltet geheime Schlüssel, Schlüssel und Zertifikate.
Die Microsoft Entra-ID stellt einmaliges Anmelden für Azure Databricks-Benutzer bereit. Azure Databricks unterstützt die automatisierte Benutzerbereitstellung mit Microsoft Entra-ID für:
Neue Benutzer erstellen.
Weisen Sie jedem Benutzer eine Zugriffsebene zu.
Entfernen Sie Benutzer, und verweigern Sie ihnen den Zugriff.
Azure Monitor sammelt und analysiert Azure-Ressourcentelemetrie. Dieser Dienst maximiert die Leistung und Zuverlässigkeit, indem Probleme proaktiv identifiziert werden.
Microsoft Cost Management bietet Finanzgovernancedienste für Azure-Workloads.
Komponenten
Data Lake Storage ist ein skalierbarer Datenspeicherdienst, der für strukturierte und unstrukturierte Daten entwickelt wurde. In dieser Architektur dient Data Lake Storage als zugrunde liegende Infrastruktur für den Delta Lake. Es ist die primäre Speicherebene für rohe und verarbeitete Daten, die eine effiziente Datenaufnahme, Speicherung und Abruf für Analyse- und Machine Learning-Workloads ermöglicht.
Azure Data Factory ist ein cloudbasierter Datenintegrationsdienst, der Datenbewegungen und Transformationen koordiniert und automatisiert. In dieser Architektur erstellt, plant und koordiniert Azure Data Factory Datenpipelinen, mit denen Daten in verschiedenen Datenspeichern und Diensten verschoben und transformiert werden.
Azure Event Hubs ist ein Echtzeitdatenaufnahmedienst, der Millionen von Ereignissen pro Sekunde aus einer beliebigen Quelle verarbeiten kann. In dieser Architektur erfasst und streamt Event Hubs große Datenmengen aus verschiedenen Quellen, um Echtzeitanalysen und ereignisgesteuerte Verarbeitung zu ermöglichen.
Azure IoT Hub ist ein verwalteter Dienst, der die Sicherheit und zuverlässige Kommunikation zwischen IoT-Geräten (Internet of Things) und der Cloud verbessert. In dieser Architektur erleichtert IoT Hub die Erfassung, Verarbeitung und Analyse von Telemetriedaten von IoT-Geräten, um Echtzeiteinblicke bereitzustellen und remote monitoring zu ermöglichen.
Dataverse ist eine skalierbare Datenplattform, die Organisationen verwenden können, um Daten, die Geschäftsanwendungen verwenden, sicher zu speichern und zu verwalten. In dieser Architektur dient sie als Datenquelle, die über Azure Synapse Link oder Microsoft Fabric Link in die Analysepipeline einspeist.
Azure Synapse Link ist ein Datenintegrationsfeature, das Dynamics-Anwendungen mit Azure Synapse Analytics oder Data Lake Storage verbindet. In dieser Architektur kopiert sie Daten nahezu in Echtzeit von Dataverse in Data Lake Storage.
Microsoft Fabric Link ist ein Datenintegrationsfeature, das Dynamics-Anwendungen mit Fabric verbindet. In dieser Architektur repliziert sie Daten von Dataverse in Fabric in nahezu Echtzeit.
Azure Databricks ist eine Apache Spark-basierte Analyseplattform für big Data Processing, Machine Learning und Data Engineering. In dieser Architektur werden Datenbereinigung, Transformation und Analyse mithilfe von Medallion-Architekturebenen durchgeführt.
Delta Lake ist eine Open-Source-Speicherschicht, die Atomität, Konsistenz, Isolation und Haltbarkeit (ACID) Transaktionen zu Apache Spark und Big Data-Workloads bringt. In dieser Architektur verbessert Delta Lake die Datensicherheit und Leistung innerhalb des Datensees.
Azure Databricks SQL ist ein SQL-basierter Analysedienst, mit dem Benutzer SQL-Abfragen für in Azure Databricks gespeicherte Daten ausführen können. In dieser Architektur bietet Azure Databricks SQL eine leistungsstarke SQL-Schnittstelle zum Abfragen und Analysieren von Daten, die interaktive Analysen ermöglichen.
KI und maschinelles Lernen umfassen eine Reihe von Technologien und Diensten, die die Entwicklung, Bereitstellung und Verwaltung von Machine Learning-Modellen ermöglichen. In dieser Architektur erstellen KI- und Machine Learning-Dienste Predictive Models, trainieren und bereitstellen. Diese Funktion ermöglicht die datengesteuerte Entscheidungsfindung.
Unity Catalog ist eine Data Governance-Lösung, die zentrale Zugriffssteuerung, Überwachung, Linien und Datenermittlungsfunktionen in Databricks-Arbeitsbereichen bereitstellt. In dieser Architektur trägt Unity Catalog dazu bei, Die Datengovernance und -sicherheit zu gewährleisten, indem differenzierte Zugriffskontrollen, Überwachung und Datenlinienverfolgung bereitgestellt werden.
Medallion Lakehouse-Architektur ist ein Datenarchitekturmuster, das Daten in Bronze-, Silber- und Goldschichten für eine effiziente Datenverarbeitung und -analyse organisiert. In dieser Architektur werden Datenverarbeitungsworkflows mithilfe von Data Lake Storage, Delta Lake und Azure Databricks strukturiert, um skalierbare Analysen zu unterstützen.
Fabric ist eine umfassende Datenplattform, die verschiedene Datendienste und Tools integriert, um eine nahtlose Datenverwaltung und Analyseerfahrung zu ermöglichen. In dieser Architektur verbindet Und integriert Fabric Daten aus mehreren Quellen, wodurch umfassende Datenanalysen und Erkenntnisse in der gesamten Organisation ermöglicht werden.
Real-Time Intelligence ist eine Datenverarbeitungsfunktion, mit der Organisationen Daten in Echtzeit aufnehmen, verarbeiten und analysieren können. Real-Time Intelligence verarbeitet Streamingdaten aus verschiedenen Quellen. In dieser Architektur bietet sie Echtzeiteinblicke und ermöglicht automatisierte Aktionen basierend auf Datenmustern.
OneLake-Verknüpfungen erstellen eine direkte Verknüpfung zwischen OneLake und anderen Datenquellen. In dieser Architektur vereinfachen sie den Datenzugriff und die Verwaltung und bieten eine einheitliche Ansicht von Daten in der gesamten Organisation.
Power BI ist ein Business Analytics-Dienst, der interaktive Visualisierungen und Business Intelligence-Funktionen bereitstellt. In dieser Architektur visualisiert Power BI Daten aus Fabric und Databricks mithilfe des Direct Lake-Modus, um die Leistung zu verbessern.
Microsoft Purview ist ein einheitlicher Datengovernancedienst, der Organisationen dabei hilft, ihre Daten in verschiedenen Quellen zu verwalten und zu steuern. In dieser Architektur werden Daten katalogisiert, Die Linien nachverfolgt und die Compliance in der gesamten Datenstruktur erzwungen. Sie können Unity-Katalog in Purview integrieren , um über Purview auf Unity-Katalogmetadaten zuzugreifen.
Microsoft Entra ID ist eine cloudbasierte Identitäts- und Zugriffsverwaltungslösung, die sichere Anmeldungen und den Zugriff auf Ressourcen wie Microsoft 365, Azure und andere SaaS-Anwendungen gewährleistet. In dieser Architektur bietet Die Microsoft Entra-ID eine sichere Identitäts- und Zugriffsverwaltung für Azure-Ressourcen. Dieses Feature ermöglicht sichere Anmeldungen, verwaltet Benutzeridentitäten und stellt den autorisierten Zugriff auf Daten und Ressourcen sicher.
Microsoft Cost Management ist eine Suite von FinOps-Tools, mit denen Organisationen Microsoft Cloud-Kosten analysieren, überwachen und optimieren können. In dieser Architektur bieten diese Tools Finanzgovernance über Azure-Ressourcen.
Key Vault ist ein Clouddienst, der geheime Schlüssel speichert und verwaltet, z. B. API-Schlüssel, Kennwörter, Zertifikate und kryptografische Schlüssel. In dieser Architektur können Azure Databricks geheime Schlüssel aus Key Vault abrufen, um Data Lake Storage zu authentifizieren und darauf zuzugreifen, was eine sichere Integration gewährleistet.
Azure Monitor ist ein Überwachungsdienst, der vollständige Stapel-Observierbarkeit für Anwendungen, Infrastruktur und Netzwerke bietet. Azure Monitor ermöglicht Es Benutzern, Telemetriedaten aus ihren Azure- und lokalen Umgebungen zu sammeln, zu analysieren und zu bearbeiten. In dieser Architektur stellt Azure Monitor die Leistung und Zuverlässigkeit sicher, indem Probleme proaktiv identifiziert werden.
Azure DevOps ist eine Reihe von Entwicklungstools, die eine zusammenarbeitende Kultur und optimierte Prozesse unterstützen. Diese Tools ermöglichen Entwicklern, Projektmanagern und Mitwirkenden, Software effizienter zu entwickeln. Azure DevOps bietet integrierte Features wie Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans und Azure Artifacts. Sie können über einen Webbrowser oder einen integrierten Entwicklungsumgebungsclient auf diese Features zugreifen. In dieser Architektur unterstützt Azure DevOps die automatisierte Bereitstellungs- und Versionssteuerung für Datenpipelinen und Notizbücher.
GitHub ist ein cloudbasierter Git-Repository-Hostingdienst, der die Versionssteuerung und Zusammenarbeit für Entwickler vereinfacht. Einzelpersonen und Teams können ihren Code speichern und verwalten, Änderungen nachverfolgen und an Projekten zusammenarbeiten. In dieser Architektur ist GitHub in Azure DevOps integriert, um Automatisierung und Compliance in Entwicklungsworkflows und Bereitstellungspipelinen für Azure Data Factory, Azure Databricks und Fabric zu erzwingen.
Alternativen
Informationen zum Erstellen einer unabhängigen Fabric-Umgebung finden Sie unter Greenfield Lakehouse auf Fabric.
Informationen zum Migrieren einer lokalen SQL-Analyseumgebung zu Fabric finden Sie unter Modern Data Warehouses für kleine und mittelständische Unternehmen.
Dienstalternativen in dieser Architektur
Batchaufnahme
- Verwenden Sie optional Fabric Data Pipeline für die Datenintegration anstelle von Data Factory-Pipelines. Die Auswahl hängt von mehreren Faktoren ab. Weitere Informationen finden Sie unter Abrufen von Azure Data Factory zu Data Factory in Microsoft Fabric.
Microsoft Dynamics 365-Aufnahme-
Wenn Sie Azure Data Lake als Datenspeicher verwenden und Dataverse-Daten aufnehmen möchten, verwenden Sie Azure Synapse Link for Dataverse mit Azure Data Lake. Informationen zu Dynamics Finance and Operations finden Sie unter FnO Azure Synapse Link for Dataverse.
Wenn Sie Microsoft Fabric Lakehouse als Datenspeicher verwenden, lesen Sie Fabric Link.
Streamingdatenaufnahme
- Die Entscheidung zwischen Azure IoT und Event Hubs hängt von der Quelle der Streamingdaten ab, ob klonen und bidirektionale Kommunikation mit den Berichtsgeräten erforderlich ist und welche Protokolle erforderlich sind. Weitere Informationen finden Sie unter Vergleichen von IoT Hub und Event Hubs.
Lakehouse
- Microsoft Fabric Lakehouse ist eine einheitliche Datenarchitekturplattform zum Verwalten und Analysieren strukturierter und unstrukturierter Daten in einem offenen Format, das in erster Linie Delta-Parkettdateien verwendet. Es unterstützt zwei Speichertypen. Diese Speichertypen sind verwaltete Tabellen wie CSV, Parkett oder Delta und nicht verwaltete Dateien. Verwaltete Tabellen werden automatisch erkannt. Nicht verwaltete Dateien erfordern eine explizite Tabellenerstellung. Die Plattform ermöglicht Datentransformationen über Spark- oder SQL-Endpunkte und lässt sich nahtlos in andere Fabric-Komponenten integrieren. Diese nahtlose Integration ermöglicht die Datenfreigabe ohne Duplizierung. Dieses Konzept richtet sich an die allgemeine Medallion-Architektur, die in Analyseworkloads verwendet wird. Weitere Informationen finden Sie unter Lakehouse in Fabric.
Echtzeitanalysen
Azure Databricks-
- Wenn Sie über eine vorhandene Azure Databricks-Lösung verfügen, sollten Sie strukturiertes Streaming weiterhin für Echtzeitanalysen verwenden. Weitere Informationen finden Sie unter Streaming auf Databricks.
Fabric
Wenn Sie andere Azure-Dienste in der Vergangenheit für Echtzeitanalysen verwendet haben oder über keine vorhandene Echtzeitanalyselösung verfügen, lesen Sie Fabric Real-Time Intelligence im Vergleich zu Azure Streaming Solutions.
Fabric Structured Streaming verwendet Spark Structured Streaming zum Verarbeiten und Aufnehmen von Livedatenströmen als fortlaufend angefügte Tabellen. Strukturiertes Streaming unterstützt verschiedene Dateiquellen wie CSV, JSON, ORC, Parkett und Messaging-Dienste wie Kafka und Event Hubs. Dieser Ansatz stellt eine skalierbare und fehlertolerante Datenstromverarbeitung sicher, wodurch Produktionsumgebungen mit hohem Durchsatz optimiert werden. Weitere Informationen finden Sie unter Fabric Spark Structured Streaming.
Data Engineering-
- Verwenden Sie Fabric oder Azure Databricks, um Spark-Notizbücher zu schreiben. Weitere Informationen finden Sie unter Verwenden von Fabric-Notizbüchern. Informationen dazu, wie Fabric-Notizbücher mit den bereitgestellten Azure Synapse Spark vergleichen, finden Sie unter Vergleichen von Fabric Data Engineering und Azure Synapse Spark. Weitere Informationen zu Azure Databricks-Notizbüchern finden Sie unter Einführung in Databricks-Notizbücher.
Data Warehouse- oder Goldschicht-
- Sie können fabric oder Azure Databricks verwenden, um ein SQL-basiertes Lager oder eine Goldschicht zu erstellen. Eine Entscheidungsanleitung zum Auswählen einer Data Warehouse- oder Goldschichtspeicherlösung in Fabric finden Sie im Fabric-Entscheidungshandbuch: Auswählen eines Datenspeichers. Weitere Informationen zu SQL-Warehouse-Typen in Azure Databricks finden Sie unter SQL Warehouse-Typen.
Data Science-
Verwenden Sie fabric oder Azure Databricks für Data Science-Funktionen. Weitere Informationen zum Fabric Data Science-Angebot finden Sie unter Was ist Data Science in Fabric?. Weitere Informationen zum Azure Databricks-Angebot finden Sie unter KI und maschinelles Lernen auf Databricks.
Fabric Data Science unterscheidet sich von Machine Learning. Machine Learning bietet eine umfassende Lösung für die Verwaltung von Workflows und die Bereitstellung von Machine Learning-Modellen. Fabric Data Science ist auf ein Analyse- und Berichterstellungsszenario zugeschnitten.
Power BI-
Azure Databricks, integriert in Power BI, ermöglicht eine nahtlose Datenverarbeitung und -visualisierung. Weitere Informationen finden Sie unter Verbinden von Power BI mit Azure Databricks.
Durch Spiegelung des Azure Databricks Unity-Katalogs in Fabric können Sie direkt über die Fabric-Workload auf Daten zugreifen, die von Azure Databricks Unity Catalog verwaltet werden. Weitere Informationen finden Sie unter Mirroring Azure Databricks Unity Catalog.
Erstellen Sie eine Verknüpfung aus dem Data Lake Storage mit Delta Lake zu einem Fabric One Lake. Weitere Informationen finden Sie unter Integrieren von Databricks Unity Catalog in OneLake. Sie können diese Daten aus Power BI mithilfe des Direct Lake-Modus abfragen, ohne Daten in den Power BI-Dienst zu kopieren. Weitere Informationen finden Sie unter Direct Lake Mode.
Szenariodetails
Kleine und mittlere Unternehmen mit einer vorhandenen Azure Databricks-Umgebung und optional eine Lakehouse-Architektur können von diesem Muster profitieren. Sie verwenden derzeit ein Azure-Extrakt, -Transformations-, Ladetool wie Azure Data Factory und dienen Berichten in Power BI. Möglicherweise verfügen sie jedoch auch über mehrere Datenquellen, die unterschiedliche proprietäre Datenformate auf demselben Datensee verwenden, was zu Datenduplizierung und Bedenken hinsichtlich der Anbietersperrung führt. Diese Situation kann die Datenverwaltung erschweren und die Abhängigkeit von bestimmten Anbietern erhöhen. Sie benötigen möglicherweise auch up-to-Datum und nahezu Echtzeitberichte für Entscheidungsfindung und sind daran interessiert, KI-Tools in ihrer gesamten Umgebung zu übernehmen.
Fabric ist eine offene, einheitliche und verwaltete SaaS-Foundation, mit der Sie Folgendes verwenden können:
Verwenden Sie OneLake, um Daten an einem einzigen Ort zu speichern, zu verwalten und zu analysieren, ohne Bedenken hinsichtlich der Anbietersperre zu haben.
Innovationen schneller mit Integrationen in Microsoft 365-Apps.
Erhalten Sie schnelle Einblicke mit den Vorteilen des Power BI Direct Lake-Modus.
Profitieren Sie von Copilots in jeder Fabric-Erfahrung.
Beschleunigen Sie die Analyse, indem Sie KI-Modelle auf einer einzigen Grundlage entwickeln.
Halten Sie Daten ohne Bewegung an Ort und Stelle, wodurch die Zeit reduziert wird, die Datenwissenschaftler benötigen, um Wert bereitzustellen.
Beitragende
Dieser Artikel wird von Microsoft verwaltet. Sie wurde ursprünglich von den folgenden Mitwirkenden verfasst.
Hauptautoren:
- Bonita Rui | Cloud-Lösungsarchitekt
- Naren Jogendran | Cloud-Lösungsarchitekt
Um nicht öffentliche LinkedIn-Profile anzuzeigen, melden Sie sich bei LinkedIn an.
Nächste Schritte
- Lernpfade für Dateningenieure
- Fabric – Get Started MSLearn Path
- Fabric – MSLearn-Module
- Erstellen eines Speicherkontos für data Lake Storage
- schnellstart Event Hubs – Erstellen eines Event Hubs mithilfe des Azure-Portals
- Was ist die Medallion Lakehouse Architektur?
- Was ist ein Seehaus in Fabric?