Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Ein modernes Daten- und KI-Plattformframework
Um den Umfang der Databricks Data Intelligence-Plattform zu erörtern, ist es hilfreich, zunächst ein grundlegendes Framework für die moderne Daten- und KI-Plattform zu definieren:
Überblick über den Lakehouse-Umfang
Die Databricks Data Intelligence-Plattform deckt das komplette Framework einer modernen Datenplattform ab. Sie basiert auf der Lakehouse-Architektur und wird von einem Data Intelligence-Modul unterstützt, das die einzigartigen Eigenschaften Ihrer Daten versteht. Sie ist eine offene und einheitliche Grundlage für ETL-, ML/KI- und DWH/BI-Workloads und stellt Unity Catalog als zentrale Daten- und KI-Governancelösung bereit.
Personas des Plattformframeworks
Das Framework umfasst die primären Datenteammitglieder (Personas), die mit den Anwendungen im Framework arbeiten:
- Technische Fachkräfte für Daten versorgen wissenschaftliche Fachkräfte für Daten und Business Analysts mit genauen und reproduzierbaren Daten für eine zeitnahe Entscheidungsfindung und Erkenntnissen in Echtzeit. Sie implementieren äußerst konsistente und zuverlässige ETL-Prozesse, um das Benutzervertrauen in Daten zu stärken. Sie stellen sicher, dass die Daten gut in die verschiedenen Säulen des Unternehmens integriert sind und folgen in der Regel den Best Practices der Softwareentwicklung.
- Wissenschaftliche Fachkräfte für Daten vereinen analytisches Fachwissen und Geschäftsverständnis, um Daten in strategische Erkenntnisse und Prognosemodelle umzuwandeln. Sie sind in der Lage, geschäftliche Herausforderungen in datengesteuerte Lösungen zu übersetzen, sei es durch retrospektive analytische Erkenntnisse oder durch vorausschauende Prognosemodellierung. Durch den Einsatz von Datenmodellierung und maschinellen Lerntechniken entwerfen, entwickeln und implementieren sie Modelle, die Muster, Trends und Prognosen in Daten aufdecken. Sie fungieren als Brücke, indem sie komplexe Daten in verständliche Geschichten umwandeln und so sicherstellen, dass Geschäftsbeteiligte die datengestützten Empfehlungen nicht nur verstehen, sondern auch umsetzen können, was wiederum einen datenzentrierten Ansatz zur Problemlösung innerhalb einer Organisation fördert.
- Technische Fachkräfte für ML (maschinelles Lernen) leiten die praktische Anwendung von Data Science in Produkten und Lösungen, indem sie Modelle für maschinelles Lernen erstellen, bereitstellen und pflegen. Ihr Hauptaugenmerk richtet sich auf den technischen Aspekt der Modellentwicklung und -bereitstellung. Technische Fachkräfte für ML sorgen für die Stabilität, Zuverlässigkeit und Skalierbarkeit von Systemen für maschinelles Lernen in Liveumgebungen und kümmern sich um Herausforderungen in Bezug auf Datenqualität, Infrastruktur und Leistung. Durch die Integration von KI- und ML-Modellen in operative Geschäftsprozesse und benutzerorientierte Produkte erleichtern sie die Nutzung von Data Science bei der Lösung geschäftlicher Herausforderungen, um sicherzustellen, dass Modelle nicht nur in der Forschung bleiben, sondern auch greifbaren Geschäftswert fördern.
- Geschäftsanalysten und Geschäftsbenutzer: Geschäftsanalysten bieten Projektbeteiligten und Geschäftsteams umsetzbare Daten. Sie interpretieren häufig Daten und erstellen Berichte oder andere Dokumentationen für die Verwaltung mithilfe von STANDARD BI-Tools. Sie sind in der Regel der erste Ansprechpartner für nicht technische Geschäftsbenutzer und Betriebskollegen für schnelle Analysefragen. Dashboards und Geschäfts-Apps, die auf der Databricks-Plattform bereitgestellt werden, können direkt von Geschäftsbenutzern verwendet werden.
- Apps-Entwickler erstellen sichere Daten und KI-Anwendungen auf der Datenplattform und teilen diese Apps mit Geschäftsbenutzern.
- Geschäftspartner sind wichtige Beteiligte in einer zunehmend vernetzten Geschäftswelt. Sie sind definiert als Unternehmen oder Einzelpersonen, mit denen ein Unternehmen eine formelle Beziehung zur Erreichung eines gemeinsamen Ziels unterhält, und können Anbieter, Lieferanten, Vertriebspartner und andere Drittpartner umfassen. Die gemeinsame Nutzung von Daten ist ein wichtiger Aspekt von Geschäftspartnerschaften, da sie die Übertragung und den Austausch von Daten zur Verbesserung der Zusammenarbeit und der datengestützten Entscheidungsfindung ermöglicht.
Domänen des Plattformframeworks
Die Plattform umfasst mehrere Domänen:
- Speicher: In der Cloud werden Daten hauptsächlich in skalierbarem, effizientem und robustem Objektspeicher auf Cloudanbietern gespeichert.
- Governance: Funktionen rund um Datengovernance, z. B. Zugriffssteuerung, Überwachung, Metadatenverwaltung, Nachverfolgung der Datenherkunft und Überwachung für alle Daten und KI-Ressourcen.
- KI-Engine: Die KI-Engine bietet generative KI-Funktionen für die gesamte Plattform.
- Erfassung und Transformation: Die Funktionen für ETL-Workloads.
- Erweiterte Analysen, ML und KI: Alle Funktionen rund um maschinelles Lernen, KI, generative KI und auch Streaminganalysen.
- Data Warehouse: Die Domäne, die DWH- und BI-Anwendungsfälle unterstützt.
- Betriebsdatenbank: Funktionen und Dienste rund um operative Datenbanken wie OLTP-Datenbanken (Onlinetransaktionsverarbeitung), Schlüsselwertspeicher usw.
- Automatisierung: Workflowverwaltung für die Datenverarbeitung, maschinelles Lernen, Analysepipelinen, einschließlich CI/CD und MLOps-Unterstützung.
- ETL- und Data Science-Tools: Die Front-End-Tools, die Dateningenieure, Data Scientists und ML-Ingenieure hauptsächlich für die Arbeit verwenden.
- BI-Tools: Die Front-End-Tools, mit denen BI-Analysten hauptsächlich arbeiten.
- Daten- und KI-Apps Tools, die Anwendungen erstellen und hosten, die die von der zugrunde liegenden Plattform verwalteten Daten verwenden und ihre Analyse- und KI-Funktionen auf sichere und governancekonforme Weise nutzen.
- Zusammenarbeit: Funktionen für die Datenfreigabe zwischen zwei oder mehr Parteien.
Umfang der Databricks-Plattform
Die Databricks Data Intelligence-Plattform und ihre Komponenten können dem Framework auf folgende Weise zugeordnet werden:
Download: Umfang des Lakehouse – Databricks-Komponenten
Datenlasten auf Azure Databricks
Vor allem deckt die Databricks Data Intelligence-Plattform alle relevanten Workloads für die Datendomäne in einer Plattform ab, mit Apache Spark/Photon als Engine:
Aufnehmen und Transformieren
Databricks bietet verschiedene Möglichkeiten der Datenaufnahme:
- Databricks Lakeflow Connect bietet integrierte Connectors zum Erfassen von Daten aus Unternehmensanwendungen und Datenbanken. Die resultierende Aufnahmepipeline wird vom Unity-Katalog gesteuert und durch serverlose Rechenkapazität sowie Lakeflow Spark Declarative Pipelines unterstützt.
- Auto Loader verarbeitet Dateien inkrementell und automatisch, wenn sie im Cloud-Speicher ankommen, in geplanten oder kontinuierlichen Aufträgen – ohne die Notwendigkeit, Zustandsinformationen zu verwalten. Nach der Aufnahme müssen Rohdaten transformiert werden, damit sie für BI und ML/AI bereit sind. Databricks bietet leistungsstarke ETL-Funktionen für technische und wissenschaftliche Fachkräfte für Daten sowie für Analysten.
Lakeflow Spark Declarative Pipelines ermöglicht das Schreiben von ETL-Aufträgen auf deklarative Weise und vereinfacht den gesamten Implementierungsprozess. Die Datenqualität kann durch die Definition von Datenerwartungen verbessert werden.
Erweiterte Analysen, ML und KI
Die Plattform umfasst Databricks Mosaik AI, eine Reihe vollständig integrierter Machine Learning- und KI-Tools für traditionelle Maschinelles und Deep Learning sowie generative KI und große Sprachmodelle (LLMs). Sie deckt den gesamten Workflow von der Datenvorbereitung über die Erstellung von Modellen für maschinelles Lernen und Deep Learning bis hin zur Mosaic AI-Modellbereitstellung ab.
Spark Structured Streaming und Lakeflow Spark Declarative Pipelines ermöglichen Echtzeitanalysen.
Data Warehouse
Die Databricks Data Intelligence-Plattform hat auch eine komplette Data Warehouse-Lösung mit Databricks SQL, zentral verwaltet durch Unity Catalog mit differenzierter Zugriffssteuerung.
KI-Funktionen sind integrierte SQL-Funktionen, mit denen Sie KI direkt aus SQL auf Ihre Daten anwenden können. Die Integration von KI in Analyseaufträge ermöglicht den Zugriff auf Informationen, die zuvor für Analysten nicht zugänglich waren, und ermöglicht es ihnen, fundiertere Entscheidungen zu treffen, Risiken zu verwalten und einen Wettbewerbsvorteil durch datengesteuerte Innovation und Effizienz aufrechtzuerhalten.
Betriebsdatenbank
Lakebase ist eine OLTP-Datenbank (Online Transaction Processing), die auf Postgres basiert und vollständig in die Databricks Data Intelligence Platform integriert ist. Sie können eine OLTP-Datenbank auf Databricks erstellen und OLTP-Workloads in Ihr Lakehouse integrieren. Lakebase ermöglicht die Synchronisierung von Daten zwischen OLTP- und OLAP-Workloads (Online Analytical Processing) und ist gut in feature management, SQL Warehouses und Databricks Apps integriert.
Gliederung der Azure Databricks-Featurebereiche
Dies ist eine Zuordnung der Funktionen der Databricks Data Intelligence-Plattform zu den anderen Ebenen des Frameworks, von unten nach oben:
Cloudspeicher
Alle Daten für das Seehaus werden im Objektspeicher des Cloudanbieters gespeichert. Databricks unterstützt drei Cloudanbieter: AWS, Azure und GCP. Dateien in verschiedenen strukturierten und halbstrukturierten Formaten (z. B. Parkett, CSV, JSON und Avro) sowie unstrukturierte Formate (z. B. Bilder und Dokumente) werden mit Batch- oder Streamingprozessen aufgenommen und transformiert.
Delta Lake ist das empfohlene Datenformat für das Lakehouse (Dateitransaktionen, Zuverlässigkeit, Konsistenz, Updates usw.). Es ist auch möglich, Delta-Tabellen mit Apache Iceberg-Clients zu lesen.
In der Databricks Data Intelligence Platform werden keine proprietären Datenformate verwendet: Delta Lake und Iceberg sind Open Source, um eine Anbietersperrung zu vermeiden.
Daten- und KI-Governance
Auf der Speicherebene bietet Unity Catalog eine breite Palette von Daten- und KI-Governance-Funktionen, einschließlich Metadatenverwaltung im Metastore, Zugriffssteuerung, Überwachung, Datenermittlung und Datenlinie.
Die Datenqualitätsüberwachung bietet sofort einsatzbereite Qualitätsmetriken für Daten und KI-Ressourcen sowie automatisch generierte Dashboards, um diese Metriken zu visualisieren.
Externe SQL-Quellen können über den Lakehouse-Verbund in das Lakehouse und Unity Catalog integriert werden.
KI-Modul
Die Data Intelligence Platform basiert auf der Lakehouse-Architektur und wurde durch Databricks AI-basierte Features verbessert. Databricks AI kombiniert generative KI mit den Vorteilen der Lakehouse-Architektur, um die einzigartige Semantik Ihrer Daten zu verstehen. Intelligente Suche und der Databricks-Assistent sind Beispiele für KI-gestützte Dienste, die die Arbeit mit der Plattform für alle Benutzer vereinfachen.
Orchestrierung
Lakeflow-Aufträge ermöglichen es Ihnen, verschiedene Workloads für den gesamten Daten- und KI-Lebenszyklus in jeder Cloud auszuführen. Sie ermöglichen es Ihnen, Aufträge sowie Lakeflow Spark Declarative Pipelines für SQL, Spark, Notebooks, DBT, ML-Modelle und vieles mehr zu koordinieren.
ETL- und DS-Tools
Auf der Verbrauchsebene nutzen technische Fachkräfte für Daten und ML in der Regel IDEs für das Arbeiten mit der Plattform. Wissenschaftliche Fachkräfte für Daten bevorzugen häufig Notebooks und verwenden die ML- und KI-Runtimes sowie das Workflowsystem für maschinelles Lernen MLflow, um Experimente nachzuverfolgen und den Modelllebenszyklus zu verwalten.
BI-Tools
Business Analysts verwenden in der Regel ihr bevorzugtes BI-Tool für den Zugriff auf das Databricks-Data Warehouse. Databricks SQL kann von verschiedenen Analyse- und BI-Tools abgefragt werden, siehe BI und Visualisierung.
Darüber hinaus bietet die Plattform standardmäßig Abfrage- und Analysetools:
- AI/BI Dashboards zum Ziehen und Ablegen von Datenvisualisierungen und zum Teilen von Erkenntnissen.
- Domänenexperten wie Datenanalysten konfigurieren AI/BI Genie Spaces mit Datasets, Beispielabfragen und Textrichtlinien, um Genie dabei zu helfen, Geschäftsfragen in analytische Abfragen zu übersetzen. Nach der Einrichtung können Geschäftsbenutzerinnen und -benutzer Fragen stellen und Visualisierungen generieren, um betriebstechnische Daten zu verstehen.
- SQL-Editor für SQL-Analysten zum Analysieren von Daten.
Daten- und KI-Apps
Mit Databricks Apps können Entwickler sichere Daten und KI-Anwendungen auf der Databricks-Plattform erstellen und diese Apps für Benutzer freigeben.
Kollaboration
Delta Sharing ist ein von Databricks entwickeltes offenes Protokoll für eine sichere Datenfreigabe für andere Organisationen, unabhängig von den verwendeten Computingplattformen.
Databricks Marketplace ist ein offenes Forum für den Austausch von Datenprodukten. Dabei wird Delta Sharing genutzt, um Datenanbietern die Tools zum sicheren Teilen von Datenprodukten und Datenverbrauchern die Möglichkeit zu geben, ihren Zugriff auf die benötigten Daten und Datendienste zu erkunden und zu erweitern.
Clean Rooms verwenden Delta-Freigabe und serverlose Berechnung, um eine sichere und datenschutzgeschützte Umgebung bereitzustellen, in der mehrere Parteien gemeinsam an vertraulichen Unternehmensdaten zusammenarbeiten können, ohne direkt auf die Daten des anderen zuzugreifen.