Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Eine skalierbare Datenplattform ist entscheidend für das schnelle Wachstum von Daten. Jede Sekunde weltweit werden riesige Datenmengen generiert. Die Menge der verfügbaren Daten wird voraussichtlich in den nächsten Jahren exponentiell wachsen. Da sich die Datengenerierungsrate erhöht, steigt auch die Geschwindigkeit der Datenbewegung.
Unabhängig davon, wie viele Daten Sie haben, benötigen Ihre Benutzer schnelle Abfrageantworten. Sie erwarten, dass Sie Minuten, nicht Stunden, auf Ergebnisse warten. In diesem Artikel wird erläutert, wie Sie Ihre Azure Cloud-Skalierungsanalyselösung skalieren und die Anforderungen der Benutzer weiterhin an Geschwindigkeit erfüllen können.
Einleitung
Viele Unternehmen verfügen über große Datenplattform-Monolithen. Diese Monolithen basieren auf einem einzigen Azure Data Lake Gen2-Konto und manchmal einem einzelnen Speichercontainer. Ein einzelnes Azure-Abonnement wird häufig für alle datenplattformbezogenen Aufgaben verwendet. Die Skalierung der Abonnementebene ist in den meisten architekturbasierten Plattformen nicht vorhanden, wodurch die Fortsetzung der Azure-Einführung verhindert werden kann, wenn Benutzer in einem der Azure-Abonnement- oder Dienstebenenbeschränkungen ausgeführt werden. Auch wenn einige der Einschränkungen weiche Grenzwerte sind, kann es erhebliche negative Auswirkungen auf Ihre Datenplattform haben, sie zu erreichen.
Berücksichtigen Sie bei der Struktur Ihrer Datenplattform die Struktur Ihrer Organisation. Beachten Sie den Datenbesitz und die funktionalen Verantwortlichkeiten Ihrer Teams. Wenn Ihre Organisation Teams ein großes Maß an Autonomie und verteiltem Besitz bietet, ist eine Datengitterarchitektur Ihre beste Option.
Vermeiden Sie Situationen, in denen unterschiedliche Teams für verschiedene Aufgaben einer Lösung verantwortlich sind, z. B. Aufnahme, Reinigung, Aggregation und Bereitstellung. Die Abhängigkeit von mehreren Teams kann zu einem dramatischen Geschwindigkeitsverlust führen. Wenn Ihre Datenkunden auf der Bereitstellungsebene beispielsweise neue Datenressourcen integrieren oder funktionale Änderungen für eine bestimmte Datenressource implementieren müssen, müssen sie einen mehrstufigen Prozess durchlaufen. In diesem Beispiel sind die Schritte:
- Der Datenverbraucher sendet ein Ticket an jedes Team, das für eine Datenpipelinephase verantwortlich ist.
- Die Teams müssen synchron zusammenarbeiten, da die Ebenen miteinander verbunden sind. Die neuen Dienste erfordern Änderungen an der Datenbereinigungsebene, was zu Änderungen in der Datenaggregationsebene führt, was zu Änderungen in der Dienstebene führt. Die Änderungen können sich auf jede Pipelinephase auswirken.
- Es ist für die Teams schwierig, die potenziellen Auswirkungen von Verarbeitungsänderungen zu erkennen, da sie keinen Überblick über den gesamten End-to-End-Lebenszyklus haben. Sie müssen zusammenarbeiten, um einen klar definierten Releaseplan zu entwerfen, der Auswirkungen auf bestehende Verbraucher und Pipelines minimiert. Dieses Abhängigkeitsmanagement erhöht den Verwaltungsaufwand.
- In der Regel sind die Teams keine Experten für die Datenressource, die der Datenanwender anfordert. Um neue Datasetfeatures oder Parameterwerte zu verstehen, müssen sie einen Experten konsultieren.
- Nachdem alle Änderungen implementiert wurden, wird der Datenverbraucher benachrichtigt, dass die neue Datenressource einsatzbereit ist.
Jede große Organisation verfügt über Tausende von Datenkonsumenten. Ein komplizierter Prozess wie der beschriebene verringert die Geschwindigkeit in großen Architekturen stark, da zentrale Teams zu einem Engpass für Geschäftseinheiten werden. Das Ergebnis ist weniger Innovation und begrenzte Effektivität. Potenziell können Geschäftseinheiten entscheiden, den Dienst zu verlassen und stattdessen eine eigene Datenplattform zu erstellen.
Methoden für die Skalierung
Cloud-Skalierungsanalysen adressieren Skalierungsprobleme mithilfe von zwei Kernkonzepten:
- Datenlandungszonen für die Skalierung
- Datenprodukte oder Datenintegrationen zur Skalierung, um verteilten und dezentralen Datenbesitz möglich zu machen
Sie können eine einzelne Datenlandungszone oder mehrere bereitstellen. Datenlandungszonen ermöglichen es Ihnen, Daten zu ermitteln und zu verwalten, indem Sie eine Verbindung mit einer Datenverwaltungs-Landezone herstellen. Jede Zielzone für die Datenverwaltung befindet sich innerhalb eines einzelnen Azure-Abonnements.
Abonnements sind Azure-Einheiten der Verwaltung, Abrechnung und Skalierung. Sie spielen eine wichtige Rolle in Ihrem großen Azure-Einführungsplan.
Skalierung mit Datenlandungszonen
Die zentralen Konzepte der Cloud-Skalierungsanalysen sind Microsoft Purview, Azure Databricks Unity Catalog, wenn Sie Azure Databricks, eine Datenverwaltungs-Zielzone und die Datenlandungszone verwenden. Sie sollten jedes in einem eigenen Azure-Abonnement platzieren. Durch die Trennung können Sie aufgaben eindeutig trennen, dem Prinzip der geringsten Rechte folgen und die oben erwähnten Probleme mit der Abonnementskala teilweise beheben. Eine minimale Einrichtung der Analysen auf Cloudebene umfasst eine einzelne Datenzielzone und eine einzelne Datenverwaltungs-Zielzone.
Eine minimale Konfiguration reicht jedoch nicht für die Bereitstellungen von großen Datenplattformen aus. Unternehmen bauen große Plattformen und investieren, um ihre Daten- und Analysebemühungen im Laufe der Zeit konsistent und effizient zu skalieren. Um Einschränkungen auf Abonnementebene zu überwinden, verwendet Cloud-Skalierungsanalysen Abonnements als Skalierungseinheit, wie in Azure-Zielzonenbeschrieben. Diese Technik ermöglicht es, den Datenplattformbedarf zu erhöhen, indem der Architektur weitere Datenlandungszonen hinzugefügt werden. Durch die Einführung dieser Technik wird auch das Problem gelöst, dass ein Azure Data Lake Gen2 für eine gesamte Organisation genutzt wird, da jeder Daten-Aufnahmebereich drei Datenseen umfasst. Projekte und Aktivitäten aus mehreren Domänen können über mehrere Azure-Abonnements verteilt werden und bieten somit eine größere Skalierbarkeit.
Entscheiden Sie, wie viele Datenlandungszonen Ihre Organisation benötigt, bevor Sie eine Cloud-Skalierungsanalysearchitektur implementieren. Durch die Auswahl der richtigen Lösung wird die Grundlage für eine effektive und effiziente Datenplattform geschaffen.
Die Anzahl der erforderlichen Datenlandezonen hängt von vielen Faktoren ab, insbesondere:
- Organisationsausrichtung, z. B. wie viele Geschäftseinheiten ihre eigene Datenlandungszone benötigen
- Betriebliche Überlegungen (z. B. wie Ihre Organisation Betriebsressourcen und geschäftsbereichsspezifische Ressourcen ausrichtet)
Die Verwendung des richtigen Datenlandungszonenmodells minimiert zukünftige Anstrengungen, Datenprodukte und Datenressourcen von einer Zielzone in eine andere zu verschieben. Es hilft Ihnen auch, Big Data und Analysen in Zukunft effektiv und konsequent zu skalieren.
Berücksichtigen Sie die folgenden Faktoren, wenn Sie sich für die Anzahl der bereitzustellenden Datenlandezonen entscheiden.
| Faktor | BESCHREIBUNG |
|---|---|
| Organisationsstruktur und Datenbesitz | Überlegen Sie, wie Ihre Organisation strukturiert ist und wie Daten im Besitz Ihrer Organisation sind. |
| Region und Standort | Wenn Sie in mehreren Regionen bereitstellen, entscheiden Sie, welche Regionen die Datenzonen hosten sollen. Achten Sie darauf, alle Datenresidenzanforderungen einzuhalten. |
| Kontingente | Abonnementkontingente sind keine Kapazitätsgarantien und werden pro Region angewendet. |
| Datenhoheit | Aufgrund von Vorschriften zur Datenhoheit müssen Daten in einer bestimmten Region gespeichert werden und den regionsspezifischen Richtlinien folgen. |
| Azure-Richtlinien | Datenlandungszonen müssen den Anforderungen verschiedener Azure-Richtlinien entsprechen. |
| Verwaltungsgrenze | Abonnements stellen eine Verwaltungsgrenze für Governance und Isolation bereit, wodurch eine klare Trennung von Zuständigkeiten erreicht wird. |
| Vernetzung | Jede Zielzone verfügt über ein virtuelles Netzwerk. Da sich ein virtuelles Netzwerk in einer einzelnen Region befindet, erfordert jede neue Region eine neue Zielzone. Die virtuellen Netzwerke müssen Peer-virtuelle Netzwerke sein, um die domänenübergreifende Kommunikation zu ermöglichen. |
| Grenzen | Ein Abonnement hat Beschränkungen. Wenn Sie mehrere Abonnements haben, können Sie die Gefahren des Treffens dieser Grenzwerte mindern. |
| Kostenzuteilung | Überlegen Sie, ob gemeinsame Dienste wie Speicherkonten, die zentral bezahlt werden, nach Geschäftseinheit oder Domäne aufgeteilt werden müssen. Durch die Verwendung eines separaten Abonnements wird eine Grenze für die Kostenzuordnung erstellt. Sie können dieselbe Funktionalität mithilfe von Tags erreichen. |
| Datenklassifizierungen und streng vertrauliche Daten | Sicherheitsmechanismen können sich auf die Datenproduktentwicklung und die Nutzbarkeit einer Datenplattform auswirken. Berücksichtigen Sie Datenklassifizierungen und entscheiden Sie, ob streng vertrauliche Datasets spezielle Behandlung erfordern, z. B. Just-in-Time-Zugriff, vom Kunden verwaltete Schlüssel (CMK), feinkörnige Netzwerksteuerelemente oder mehr Verschlüsselung. |
| Sonstige Rechtliche oder Sicherheitsauswirkungen | Überlegen Sie, ob es andere rechtliche oder Sicherheitsanforderungen gibt, die eine logische oder physische Trennung von Daten erfordern. |
Wenn Sie eine Datengitterarchitektur implementieren, sollten Sie die folgenden Faktoren berücksichtigen, wenn Sie entscheiden, wie Sie Ihre Datenlandezonen und Datendomänen verteilen.
| Faktor | BESCHREIBUNG |
|---|---|
| Datendomänen | Berücksichtigen Sie die Datendomänen, die Ihre Organisation verwendet, und entscheiden Sie die Datendomänen für Ihre Datenplattform. Berücksichtigen Sie die Größe Ihrer einzelnen Datendomänen. Weitere Informationen finden Sie unter Was sind Datendomänen? |
| Latenz | Domänen, die an großen Datenmengen zusammenarbeiten, können eine große Menge an Daten über Landezonen übertragen. Erwägen Sie, Ihre Domänen in derselben Zielzone oder Region zu zuordnen. Durch die Trennung wird die Latenz erhöht und die Kosten in domänenübergreifenden Domänen erhöht. |
| Sicherheit | Einige Dienstbereitstellungen oder -konfigurationen erfordern erhöhte Berechtigungen in einem Abonnement. Wenn Sie einem Benutzer in einer Domäne implizit berechtigungen erteilen, erhält dieser Benutzer die gleichen Berechtigungen in anderen Domänen innerhalb desselben Abonnements. |
Weitere Überlegungen finden Sie im Leitfaden zur Cloud-Einführung für Abonnements.
Viele Organisationen möchten eine effiziente Skalierung ihrer Unternehmensdatenplattform. Geschäftseinheiten sollten in der Lage sein, ihre eigenen Datenlösungen und Anwendungen zu erstellen, um ihren individuellen Anforderungen gerecht zu werden. Die Bereitstellung dieser Fähigkeit kann eine Herausforderung sein, da viele bestehende Datenplattformen nicht auf den Konzepten der Skalierbarkeit und dezentralen Eigentums basieren. Dieses Manko ist in der Architektur, der Teamstruktur und dem Ops-Modell dieser Datenplattformen eindeutig zu erkennen.
Datenlandungszonen erstellen keine Datensilos innerhalb Ihrer Organisation. Die empfohlene Netzwerkkonfiguration für Analysen auf Cloudebene ermöglicht einen sicheren und direkten Datenaustausch über Zielzonen hinweg, was wiederum Innovationen über Datendomänen und Geschäftseinheiten hinweg ermöglicht. Weitere Informationen finden Sie unter Überlegungen zur Netzwerkarchitektur.
Das gleiche gilt für die Identitätsschicht. Wenn Sie einen einzelnen Microsoft Entra-Mandanten verwenden, können Sie Identitäten Zugriff auf Datenressourcen in mehreren Datenlandungszonen gewähren. Weitere Informationen zum Benutzer- und Identitätsautorisierungsprozess finden Sie unter Datenzugriffsverwaltung.
Hinweis
Wenn Sie über mehrere Datenlandungszonen verfügen, kann jede Zone eine Verbindung mit Daten herstellen, die in anderen Zonen gehostet werden. Auf diese Weise können Gruppen in Ihrem Unternehmen zusammenarbeiten.
Cloud-Skalierungsanalysen verwenden eine gemeinsame Architektur, um eine konsistente Governance zu befürworten. Ihre Architektur definiert grundlegende Funktionen und Richtlinien. Alle Datenlandungszonen entsprechen der gleichen Überwachung und Kontrolle. Ihre Teams können Datenpipelinen erstellen, Quellen aufnehmen und Datenprodukte wie Berichte und Dashboards erstellen. Teams kann auch Spark/SQL-Analysen nach Bedarf durchführen. Sie können die Funktionen der Datenzielzonen erweitern, indem Sie ihnen in der Richtlinie Dienste hinzufügen. Ein Team kann z. B. ein Diagrammmodul eines Drittanbieters hinzufügen, um eine Geschäftsanforderung zu erfüllen.
Cloud-Skalierungsanalysen legen einen starken Schwerpunkt auf die zentrale Katalogisierung und Klassifizierung zum Schutz von Daten und ermöglichen es verschiedenen Gruppen, Datenprodukte zu entdecken.
Vorsicht
Wir empfehlen, keine Daten regionsübergreifend abzufragen. Stellen Sie stattdessen sicher, dass die Daten nahe an der Berechnung liegen, die sie verwendet, und achten Sie dabei auf regionale Grenzen.
Die Cloud-Skalierungsanalysearchitektur und das Konzept von Datenlandungszonen ermöglichen Es Ihrer Organisation, die Größe Ihrer Datenplattform im Laufe der Zeit leicht zu erhöhen. Sie können weitere Datenlandungszonen in einem phasenweisen Ansatz hinzufügen. Ihre Kunden müssen zunächst nicht über mehrere Landezonen verfügen. Wenn Sie diese Architektur einführen, priorisieren Sie einige Datenlandezonen und die darin enthaltenen Datenprodukte. Die richtige Priorisierung trägt dazu bei, den Erfolg Ihrer Bereitstellung von cloudbasierten Analysefunktionen sicherzustellen.
Skalieren mit Datenanwendungen
Innerhalb jeder Zielzone kann Ihre Organisation mithilfe von Datenanwendungen skalieren. Datenanwendungen sind Einheiten oder Komponenten Ihrer Datenarchitektur, die Funktionen kapseln, die leseoptimierte Datenprodukte für den Verbrauch durch andere Datenanwendungen bereitstellen. In Azure sind Datenanwendungen Umgebungen in Form von Ressourcengruppen, mit denen funktionsübergreifende Teams Datenlösungen und Workloads implementieren können. Ein zugeordnetes Team kümmert sich um den kompletten Lebenszyklus der Datenlösung, einschließlich Eingabe, Reinigung, Aggregation und Dienstaufgaben.
Cloud-Skalierungsanalysen behandeln die Zuvor erörterten Probleme mit der Datenintegration und -verantwortung. Anstelle von monolithischen funktionalen Verantwortlichkeiten für die Tabellenaufnahme und die Quellsystemintegration bietet das Referenzdesign eine verteilte Architektur, die von Datendomänen gesteuert wird. Funktionsübergreifende Teams übernehmen die funktionale End-to-End-Verantwortung und sind für den Datenbereich zuständig.
Anstatt einen zentralen technischen Stapel und ein Team zu haben, das für alle Aufgaben Ihres Datenverarbeitungsworkflows verantwortlich ist, können Sie End-to-End-Verantwortung über mehrere autonome, funktionsübergreifende Datenintegrationsteams verteilen. Jedes Team besitzt eine Domänen- oder Unterdomänenfunktion und wird ermutigt, Datasets nach Bedarf von Datenkonsumenten zu bedienen.
Diese architektonischen Unterschiede führen zu einer erhöhten Geschwindigkeit auf Ihrer Datenplattform. Ihre Datenkunden müssen sich nicht mehr auf eine Reihe zentralisierter Teams verlassen oder für ihre angeforderten Änderungen kämpfen, um priorisiert zu werden. Da kleinere Teams den Besitz Ihres End-to-End-Integrationsworkflows übernehmen, ist die Feedbackschleife zwischen Datenanbieter und Datenverbraucher kürzer. Dieser Ansatz führt zu einer schnelleren Priorisierung, schnelleren Entwicklungszyklen und einem agileren Entwicklungsprozess. Ihre Teams müssen Prozesse und Veröffentlichungspläne nicht mehr untereinander synchronisieren, da das funktionsübergreifende Datenintegrationsteam das vollständige Bewusstsein für den End-to-End-technischen Stapel und die Auswirkungen von Änderungen hat. Es kann Software engineering-Praktiken verwenden, um Komponenten- und Integrationstests auszuführen, um den Gesamteffekt auf die Verbraucher zu minimieren.
Idealerweise besitzt das Team, das die Datenintegrationssysteme besitzt, auch die Quellsysteme. Dieses Team sollte aus Dateningenieuren bestehen, die an den Quellsystemen, Fachexperten (SMEs) für die Datasets, Cloudingenieure und Datenproduktbesitzer arbeiten. Die Erstellung dieser Art funktionsübergreifender Teams reduziert die Menge der Kommunikation mit externen Teams und ist unerlässlich, während Sie Ihren gesamten Stapel von der Infrastruktur bis hin zu tatsächlichen Datenpipelines entwickeln.
Die Grundlage Ihrer Datenplattform sind Datasets, die aus Quellsystemen integriert sind. Diese Datasets ermöglichen es Ihren Datenproduktteams, innovationen in Geschäftsdatentabellen zu entwickeln und Entscheidungsprozesse und Geschäftsprozesse zu verbessern. Ihre Datenintegrationsteams und Datenproduktteams sollten SLAs den Verbrauchern anbieten und sicherstellen, dass alle Vereinbarungen erfüllt sind. Die angebotenen SLAs können sich auf Datenqualität, Termintreue, Fehlerraten, Verfügbarkeit und andere Aufgaben beziehen.
Zusammenfassung
Mithilfe der Skalierungsmechanismen Ihrer Cloud-Skalierungsanalysearchitektur kann Ihre Organisation ihre Datenmenge innerhalb von Azure im Laufe der Zeit erweitern und gleichzeitig häufige technische Einschränkungen vermeiden. Beide in diesem Artikel beschriebenen Skalierungsmethoden helfen Ihnen dabei, unterschiedliche technische Komplexitäten zu überwinden und können auf einfache und effiziente Weise verwendet werden.