Freigeben über


Datenplattform für KI-Workloads in Azure

Die Auswahl einer Datenplattform umfasst das Verständnis der eindeutigen Datenprobleme, die diese Lösungen mit sich bringen. GenAI-Lösungen, insbesondere solche, die mit Foundationmodellen erstellt wurden, sind von vielfältigen, qualitativ hochwertigen Daten, schnellem Zugriff auf skalierbare Datenspeicher, die die Vektorsuche unterstützen, abhängig. Ziel ist es, diese Anforderungen zu erfüllen, ohne Ihrer Architektur unnötige Komplexität hinzuzufügen. Das Verständnis der Prinzipien eines effektiven Datenpipelinedesigns ist unerlässlich, bevor Plattformoptionen ausgewertet werden.

Bei der Bewertung von Plattformentscheidungen fragen Sie zunächst, ob Sie wirklich zusätzliche Komponenten benötigen. Einfachere Architekturen sind oft schneller bereitzustellen, einfacher zu verwalten und kostengünstiger. Fragen Sie sich:

  • Kann das Modell seine erwartete Leistung mithilfe von Daten aus einer einzigen Quelle erzielen?
  • Stellt der Quelldatenspeicher bereits die benötigten Analyse- oder Suchfunktionen bereit?
  • Sind die Quelldaten bereits für die KI- oder Vektorsuche strukturiert und indiziert?

Wenn die Antwort auf die meisten dieser Fragen ja ist, ist möglicherweise keine komplexe Architektur erforderlich. Beispielsweise unterstützen Datenbanken wie Azure Cosmos DB und Azure SQL-Datenbank bereits Vektordatentypen und Vektorsuche nativ, müssen aber aktiviert und konfiguriert werden. Diese Funktionen können den Bedarf an separaten Indizierungs- oder spezialisierten Vektordatenbanken verringern und die Datenverschiebung minimieren und gleichzeitig die Leistung verbessern.

Wenn Ihre Arbeitsauslastung wächst und Daten aus mehreren Quellen stammen, wird die Plattformentscheidung komplexer. Möglicherweise müssen Sie Lösungen berücksichtigen, die ETL- oder ELT-Pipelines, spezialisierte Suchindizes und skalierbaren Speicher für große Datasets unterstützen. Jede hinzugefügte Funktion sollte einem klaren Zweck dienen, anstatt einfach den Technologiestapel zu erweitern.

Dieser Artikel enthält Anleitungen zum Auswählen einer Datenplattform für Workloads, bei denen Daten gespeichert, verarbeitet oder analysiert werden müssen. Der Fokus liegt auf Lösungen, die generative KI (GenAI) unterstützen. Es wird dringend empfohlen, die Prinzipien eines guten Datenpipelinedesigns zu verstehen, bevor Sie die in diesem Artikel beschriebenen technologischen Funktionen erkunden. Weitere Informationen finden Sie unter Grundlagendatendesign.

Empfehlungen für diskriminative Modellschulungen und Feinabstimmungen finden Sie unter Überlegungen zur Schulungsdatenplattform.

Überlegungen zur Datenspeicherungsplattform

In KI-Workloads werden Daten in der Regel durch mehrere Phasen der Speicher- und Verarbeitungsvorgänge geleitet, die von Pipelines geleitet werden, die jeden Schritt verbinden. Eine wichtige Phase ist der Datenspeicher, der Informationen enthält, die aus mehreren Quellen gesammelt und kombiniert werden. Mit diesem Speicher können Sie die Daten verarbeiten und verfeinern, bis sie für die nächste Phase bereit ist.

Hinweis

Möglicherweise benötigen Sie diese Komponente nicht in Ihrer Architektur. In einigen Fällen können Sie direkt über die Quellsysteme auf Daten zugreifen. Dies kann jedoch zu Leistungsproblemen führen und diese Systeme mit KI-Abfragen überladen. Es kann auch Zugangs- oder Zuverlässigkeitsprobleme verursachen. Um diese Probleme zu verhindern, ist es in der Regel besser, die Daten in einen dedizierten Speicher für Aggregation und Verarbeitung zu kopieren.

Wenn Sie eine Plattform für diesen Store auswählen, stellen Sie sicher, dass sie dieselben Sicherheitsstandards wie Ihre Quellsysteme erfüllt, kosteneffizient ist und gut mit ETL-, ELT- oder EL-Verarbeitungsaufgaben funktioniert. Ihre Optionen können je nach Datenvolume und Leistungsanforderungen von einfachen Speicherlösungen bis hin zu umfangreichen Datenplattformen reichen. Suchen Sie nach einer Speicheroption, die zuverlässig, skalierbar ist und einen guten Wert für Ihre Workload bietet.

Hier finden Sie einige Fragen, die Ihnen bei der Auswahl der Datenspeichertechnologie helfen.

Kann die Plattform unterschiedliche Datenformate verarbeiten?

Ihr Datenspeicher sollte in der Lage sein, eine Vielzahl von Datenformaten zu speichern und bei Bedarf Daten zwischen diesen zu konvertieren.

Wenn Ihre Aufnahmepipeline beispielsweise Daten aus einer relationalen Datenbank und einer JSON-Datei einführt, muss sie strukturierte und halbstrukturierte Daten unterstützen. Möglicherweise möchten Sie Ihre Daten in das Delta-Format konvertieren, um die umfangreichere Funktionalität der Delta Lake-Technologie zu ermöglichen. Die Plattform sollte integrierte Tools für diese Art von Transformation bereitstellen, damit Sie keinen benutzerdefinierten Code schreiben müssen.

Erwarten Sie, dass mehrere Versionen der Daten gespeichert werden?

Daten ändern sich im Laufe der Zeit sowohl in ihren Werten als auch in ihrer Struktur, und Quellsysteme speichern normalerweise nur den aktuellen Zustand. Wenn Sie historischen Kontext benötigen, wählen Sie eine Datenplattform aus, die die Versionsverwaltung unterstützt. Ohne dies müssen Sie möglicherweise Datasets duplizieren, wodurch Komplexität hinzugefügt wird.

Die Versionsverwaltung hat weitere Vorteile. In einigen Fällen benötigen Sie möglicherweise separate Kopien von Daten für unterschiedliche Anwendungsfälle. Jede Kopie kann unabhängig weiterentwickelt werden, und die Plattform sollte die Versionsverwaltung für alle Kopien verwalten, um den Kontext für Ihre KI-Modelle beizubehalten.

Verfügt die Plattform über integrierte Funktionen für die Datenlebenszyklusverwaltung?

Die Datenlebenszyklusverwaltung (Data Lifecycle Management, DLM) hilft beim Steuern des Wachstums von der Erstellung bis hin zum Löschen. Ihre Plattform sollte bei Bedarf automatisch Zwischenkopien entfernen, archivierte Daten verwalten und die gesetzliche Aufbewahrung unterstützen. Ohne dies können Daten unkontrolliert wachsen und dass unnötige Mengen die Verarbeitung erschweren können. Beispielsweise müssen Sie die Vorverarbeitungsschritte möglicherweise mehrmals erneut ausführen, um die Datenqualität zu verbessern. Die Plattform sollte automatisch Zwischenkopien entfernen, wenn sie nicht mehr benötigt werden.

In anderen Fällen müssen Sie möglicherweise Daten für Compliance oder Audits aufbewahren. Suchen Sie nach Speicheroptionen, die kalte oder archivierte Ebenen unterstützen, um selten auf Daten zu niedrigeren Kosten zugreifen zu können.

Unterstützt die Plattform Data Governance-Features?

Die Auditierbarkeit ist ein wichtiger Aspekt für KI-Workloads. Ihre Plattform sollte Audit-Trails verwalten, um den Datenzugriff nachzuverfolgen, die Privatsphäre zu gewährleisten und die Herkunft der Daten zu dokumentieren. Außerdem sollte ein Datenwörterbuch oder -katalog unterstützt werden, das Metadaten, Datentypen, Zweck und Linien verwaltet, insbesondere, wenn Daten aus mehreren Quellen stammen.

Wie viele Daten erwarten Sie, dass sie gespeichert werden?

KI-Workloads generieren große Datenmengen, die mit mehreren Versionen und zusätzlichen Metadaten weiter wachsen können. Ihre Datenplattform sollte effizient für Speicher und Durchsatz skalieren, hohe Aufnahmeraten, gleichzeitige Schreibvorgänge und intensive Verarbeitung ohne Leistungsbeeinträchtigung verarbeiten.

Berücksichtigen Sie beim Auswählen einer Plattform den gesamten Workflow, da die Aufnahme und Verarbeitung häufig gleichzeitig erfolgt. Das System sollte parallele Verarbeitung und häufige Datenbewegungen unterstützen und Telemetrie bereitstellen, um einen klaren Einblick in die Lese- und Schreibleistung zu erhalten.

Ist dieser Datenspeicher für die Zuverlässigkeit Ihrer Workload von entscheidender Bedeutung?

Wählen Sie eine Plattform aus, die Zuverlässigkeit und Skalierbarkeit durch Replikation oder mehrere Instanzen unterstützt. Viele Big Data-Speicher verwenden Controller, die die Verarbeitung automatisch verteilen und Failover bereitstellen, wenn eine Instanz nicht verfügbar wird.

Daten müssen auch dauerhaft und barrierefrei sein. Stellen Sie sicher, dass die Plattform die Datenintegrität garantiert, barrierefreie APIs bereitstellt und Sicherungs- oder Wiederherstellungsfunktionen unterstützt, wenn die Neuerstellung von Daten von Grund auf kostspielig wäre.

Haben Sie Kosteneinschränkungen?

Berücksichtigen Sie nach Erfüllung der Zuverlässigkeits- und Leistungsanforderungen, wie Kosten optimiert werden. Für viele KI-Workloads reicht ein einmal schreiben, mehrfach lesen Muster aus und hilft bei der Steuerung von Ausgaben. Erdungsdaten sollten kosteneffizient sein, um Daten zu speichern und abzurufen, auch wenn dies nicht die gleiche Reaktionsfähigkeit wie eine Produktionsdatenbank erfordert. Ziel ist es, Kosten, Effizienz und Leistung auszugleichen.

Müssen Sie Datenhoheit oder regionale Complianceanforderungen unterstützen?

Für Workloads, die regulierte oder vertrauliche Daten verarbeiten, sollten Sie die Bereitstellung in einer souveränen Cloud in Betracht ziehen, z. B. Azure Government, Microsoft Azure, betrieben von 21Vianet oder anderen nationalen Partner-Clouds. Diese Umgebungen sind darauf ausgelegt, strenge Anforderungen an die Datenhaltung, den Datenschutz und die Compliance zu erfüllen, indem sichergestellt wird, dass die Datenspeicherung, die Verarbeitung und der Zugriff in bestimmten Rechtsordnungen verbleiben.

Souveräne Clouds bieten eine bessere Kontrolle und Unabhängigkeit über Ihre Daten, was häufig eine Anforderung für Sektoren wie Regierung, Verteidigung oder Banken ist. Beachten Sie jedoch, dass einige erweiterte KI- und Datenplattformfeatures in diesen Regionen möglicherweise noch nicht verfügbar sind. Überprüfen Sie die Dienstverfügbarkeit, bevor Sie Ihre Architektur entwerfen.

Verwenden Sie Microsoft Purview, um Datenkataloge, Klassifizierungen und Zeilenverfolgungen in diesen Umgebungen zu verwalten. Bei streng vertraulichen Workloads sollten Sie vertrauliche Computing- und vom Kunden verwaltete Schlüssel verwenden, um den Datenschutz zu stärken. Sie müssen überprüfen, ob Ihre Bereitstellung den regionalen Vorschriften entspricht.

Technologieoptionen

Function Empfohlene Technologien Alternativen / Ergänzende Werkzeuge
Mehrformatige Datenspeicherung Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Azure Databricks Lakehouse Azure Blob Storage, Azure Synapse Analytics, lokales Data Warehouse
Datenversionsverwaltung und -lineage Microsoft Fabric Lakehouse, Azure Data Lake Storage Gen2 (mit Delta Lake), Azure Databricks (Delta Lake) Git LFS, DVC (Datenversionskontrolle), Apache Iceberg
Datenlebenszyklusverwaltung (DATA Lifecycle Management, DLM) Azure Data Lake Storage Gen2 (Lebenszyklusrichtlinien), Azure Blob Storage (Tiering), Azure Databricks (Tabellenoptimierung) Amazon S3 (Lebenszyklusrichtlinien), Google Cloud Storage
Datengovernance und Katalogisierung Microsoft Purview, Azure Databricks Unity-Katalog Apache Atlas, DataHub, Collibra
Datenspeicher mit hohem Volumen Azure Data Lake Storage Gen2, Azure Synapse Analytics, Azure Databricks Lakehouse Azure Blob Storage, Hadoop HDFS, Amazon S3

Überlegungen zur Datenverarbeitungsplattform

Die Datenverarbeitungsplattform spielt eine wichtige Rolle bei der Vorbereitung und Transformation von Daten, damit sie für die nachgeschaltete Verwendung bereit ist, unabhängig davon, ob es sich um die RAG-Indizierung, Analyse oder einen anderen Anwendungsfall handelt.

Hinweis

Für GenAI- und retrieval-augmented Generation (RAG) ist es nützlich, den Unterschied zwischen ETL-, ELT- und EL-Prozessen zu verstehen.

  • ETL: Extrahieren, Transformieren und anschließendes Laden, typisch für herkömmliche Data Warehouses.
  • ELT: Extrahieren, laden und dann transformieren, häufig für Data Lakes und Big Data-Tools wie PySpark.
  • EL: Extrahieren und Laden, verwendet in RAG-Szenarien, in denen Sie zunächst Dokumente speichern und später Transformationen wie Textzerlegung oder Bildextraktion durchführen.

Es gibt zwei Orte, an denen die Verarbeitung erfolgen kann:

  • Aufnahmeschicht. Die Aufnahmepipeline sammelt Daten aus verschiedenen Quellen und verschiebt sie in Ihren aggregierten Datenspeicher. Auf dem Weg werden häufig grundlegende Vorverarbeitungen oder Formatierungen ausgeführt, sodass die Daten abfragbar sind. Um den Bedarf an benutzerdefiniertem Code zu verringern, empfiehlt es sich, eine Datenplattform zu verwenden, die so viel wie möglich behandelt. Berücksichtigen Sie beim Auswerten von Tools die ETL- oder ELT-Features, die erforderlich sind, um Ihre KI-Workloads wie die Datenerweiterung zu unterstützen.

  • Verarbeitungsebene. Nachdem Daten im Aggregatspeicher landen, benötigt sie in der Regel eine tiefere Verarbeitung, bevor sie für die Indizierung oder Verwendung in KI-Modellen bereit ist. Diese Pipelines sollten ähnliche Zuverlässigkeits- und Skalierbarkeitsniveaus wie Ihre Datenaufnahmeebene bieten, aber der Schwerpunkt verlagert sich auf die Transformation und Umformung der Daten.

Typische Aufgaben umfassen:

  • Entitätserkennung und -bereicherung
  • Integrieren zusätzlicher Datenquellen
  • Durchführen von Nachschlagevorgängen und Transformationen
  • Bereinigen oder Löschen irrelevanter Daten

Eine starke Datenplattform hilft dabei, diese Vorgänge effizient zu automatisieren und zu koordinieren.

Welche Unterstützung bietet die Verbindung mit Datenquellen?

Die Plattform sollte einfach auf Datenquellen zugreifen können, von denen Sie erwarten, dass sie Daten aufnehmen, egal ob es sich um relationale Datenbanken, Big Data-Quellen oder Blob-Speicher handelt.

Suchen Sie nach vorgefertigten Anschlüssen und Low-Code-Integrationen. Idealerweise möchten Sie Drag-and-Drop- oder konfigurationsbasierte Connectors verwenden, die Nachschlagevorgänge, Datenkopien und Governance unterstützen.

Kann die Plattform verschiedene Datenformate verarbeiten?

Daten sind in vielen Formen enthalten: strukturiert (SQL, relationale Tabellen), semistrukturiert (JSON, XML, Parkett) und unstrukturiert (Dokumente, Bilder) und Streaming (IoT-Daten). Wählen Sie eine Plattform aus, die die Formate verarbeiten kann, die Ihr Anwendungsfall erfordert, um sofortige und langfristige Anforderungen zu berücksichtigen.

Bietet die Plattform Features für die Datenvorbereitung und Rescoping?

Bevor Ihre Daten für den Indizierungs- oder Modellverbrauch bereit sind, muss sie bereinigt, bereichert und neu gestaltet werden. Ihre Datenentwurfsstrategien sollten die Anforderungen explizit skizzieren. Eine gute Plattform sollte:

  • Entfernen von Duplikaten und Ausfüllen fehlender Werte
  • Bearbeiten von Wortstamm-, Normalisierungs- und anderen grundlegenden Bereinigungsaufgaben bei der Planung zur Unterstützung der Schlüsselwort- oder Hybridsuche (Schlüsselwort+Vektor)
  • Unterstützung erweiterter Transformationen wie Blöcke, Anreicherung und Dokumentanalyse

Wenn Ihr Datenspeicher diese Vorgänge nativ unterstützt, können Sie Daten direkt verarbeiten, ohne sie zu verschieben. Verwenden Sie andernfalls externe Tools wie Azure Databricks oder Azure Data Factory für schwere Transformationen.

In einigen Fällen können Sie sich entscheiden, einen Teil dieser Verantwortung auf die Plattform zu externalisieren, die die nächste Stufe unterstützt. Ein gängiges Beispiel für diesen Ansatz ist die RAG-Implementierung. Während der Verarbeitung werden Dokumente in kleinere Abschnitte unterteilt, wobei jeder Block als separate Zeile im Index gespeichert ist. Diese Blöcke werden dann mit Einbettungen gekoppelt, die häufig über einen OpenAI-Dienst generiert werden. In Azure AI Search wird dieser Prozess während der Indizierung als Teil der Anreicherungspipeline orchestriert, bei der Dokumente durch ein Einbettungsmodell (z. B. ein OpenAI-Einbettungsmodell) verarbeitet werden, um Vektordarstellungen zu generieren, die dann im Index gespeichert werden.

Gibt es einen integrierten Orchestrator für die Verwaltung von Workflows?

Die Datenverarbeitung erfolgt in der Regel als modulare Aufträge, die eine komplexe Koordination erfordern. Ihre Plattform sollte einen Orchestrator enthalten, um diese Workflows zu definieren, zu planen und zu überwachen. Suchen nach:

  • Unterstützung für Auftragsabhängigkeiten und Überprüfungen, die die Abfolge der Ausführung überprüfen
  • Flexible Änderung von Workflows, die einfache Anpassungen ermöglichen, ohne große Teile von Code neu zu schreiben.
  • Überwachungs- und Protokollierungsfunktionen

Beliebte Tools umfassen Azure Data Factory für seinen umfangreichen Featuresatz für die Workflowverwaltung oder Azure Databricks für komplexere Orchestrierung. Wenn Kosten ein Problem darstellen, kann Apache NiFi oder Airflow kostengünstigere Alternativen sein.

Wie viele Daten erwarten Sie einzuspeisen?

Schätzen Sie, wie viele Daten Sie erfassen werden und mit welcher Häufigkeit die Erfassung erfolgt. Wenn Sie beispielsweise erwarten, dass täglich 10 Terabyte Daten in einen Index geladen werden, sollte die Plattform eine starke Parallelisierung und verteilte Ausführung unterstützen. Für kleinere Workloads funktionieren einfachere Tools wie Logic Apps möglicherweise, aber für höhere Volumes sind Data Factory oder Databricks besser geeignet. Berücksichtigen Sie für Skalierbarkeit und Durchsatz Folgendes:

  • Datenvolumen und -häufigkeit
  • Anforderungen an tolerierbare Latenz
  • Auftragskomplexität

Die Datenbereinigung umfasst z. B. die Überprüfung und möglicherweise das Ersetzen ungültiger Felder oder das Maskieren vertraulicher Informationen. Diese Aufgaben erfordern zwar grundlegende Ressourcen, da jede Zeile einzeln verarbeitet wird, was zur Gesamtzeit hinzufügt.

Welche Überwachungsfunktionen benötigen Sie?

Datenverarbeitungspipelines sollten Über Überwachungsfunktionen verfügen und Einblicke in die Leistung und den Status von Aufträgen der Pipeline bieten. Ihre Plattform sollte Folgendes bereitstellen:

  • Nachverfolgung des Arbeitsfortschritts
  • Protokolle, Metriken und Warnungen, um das Pipelineverhalten zu verstehen
  • Integration in Ihren umfassenderen Überwachungsstapel

Identifizieren Sie alle Lücken in der integrierten Telemetrie, und bestimmen Sie, welche zusätzliche Überwachung Sie implementieren müssen. Diese Überwachung kann das Hinzufügen von benutzerdefinierten Protokollierungen oder Metriken umfassen, um bestimmte Details zu den Auftragsschritten zu erfassen.

Wie viel Zuverlässigkeit erwarten Sie von der Datenverarbeitungsplattform?

Wählen Sie eine Plattform aus, die einzelne Fehlerpunkte minimiert und Wiederholungsversuche für fehlgeschlagene Aufgaben unterstützt. Beispielsweise bietet das Hosten von benutzerdefinierter Verarbeitungslogik, die von Data Factory auf Azure Kubernetes Service (AKS) aufgerufen wird, in der Regel eine stärkere Zuverlässigkeit als das Hosten in Azure Logic Apps.

Wenn Ihre Daten selten aktualisiert werden und Sie die Verarbeitung über die wöchentliche Batchverarbeitung verarbeiten, können gelegentliche Fehler akzeptabel sein. Für KI-Szenarien in Echtzeit benötigen Sie jedoch eine höhere Zuverlässigkeit.

Gibt es Kostenbeschränkungen?

Das Ziel ist es, übermäßige Technik zu vermeiden und eine Plattform zu wählen, die Ihren aktuellen Anforderungen entspricht, während Sie Spielraum für die Skalierung lassen. Wenn Sie beispielsweise die erweiterten Features von Databricks nicht benötigen, bietet Data Factory möglicherweise eine erschwinglichere Option. Open-Source-Tools wie Airflow oder NiFi können die Kosten weiter reduzieren.

Welche Sicherheitsanforderungen gelten für die Workflows und die daten, die Sie verarbeiten?

Sicherheits-, Datenschutz- und Datenresidenzanforderungen sollten Ihre Wahl leiten. Im Idealfall sollte die Plattform integrierte Unterstützung für eine solche Isolation bieten, die eine effiziente und sichere Datenverwaltung ermöglicht. Stellen Sie zumindest sicher, dass die Plattform:

  • Erfüllt regionale Datenresidenzgesetze. Möglicherweise müssen Sie separate Pipelines für verschiedene Regionen ausführen, z. B. eine für Europa und eine für Amerika, um lokale Compliance-Vorschriften zu erfüllen.
  • Unterstützt Identitäts- und Zugriffsverwaltung (IAM), um sicherzustellen, dass nur autorisierte Identitäten Zugriff auf bestimmte Aufträge oder Schritte innerhalb von Workflows haben.
  • Ermöglicht eine differenzierte Zugriffssteuerung auf Workflow- oder Schrittebene.

Technologieoptionen

Function Empfohlene Technologien Alternativen / Ergänzende Werkzeuge
Datenbereinigung Azure Data Factory, Azure Databricks, Microsoft Fabric Dataflows Apache NiFi, Apache Airflow
Datentransformation Azure Databricks, Azure Synapse Analytics, Microsoft Fabric Data Engineering Azure Data Factory-Pipelines
Datenanreicherung Azure AI Document Intelligence, Azure OpenAI-Dienst, Azure AI Search Benutzerdefinierte Python-APIs oder KI-Dienste von Drittanbietern
Workflow-Orchestrierung Azure Data Factory-Pipelines, Databricks-Aufträge Apache Airflow, Apache NiFi
RAG-Workflows Azure OpenAI-Dienst, Azure AI Search, Azure Databricks Microsoft Fabric Data Science

Überlegungen für einen Suchindex

In einem Suchindex werden die kontextbezogenen oder verankerten Daten gespeichert, die zusammen mit dem Prompt an den Inference-Endpunkt eines Modells gesendet werden. Indexabfragen sind eine wichtige Komponente beim Vorbereiten der an das Modell gesendeten Daten in den Ableitungsanforderungen und müssen eine Leistung mit geringer Latenz bereitstellen.

Im Gegensatz zu batchorientierten ETL-Pipelines muss dieser Index echtzeitbasiertes Ableiten unterstützen, was bedeutet, dass hohe Leistung und Zuverlässigkeit nicht verhandelbar sind. Es ist für KI-Workloads konzipiert und unterstützt Funktionen wie Stichwortindizierung, Filterung und vektorbasierte Suche, die über die herkömmlichen Datenspeicher hinausgehen.

Das ideale Design ist ein hochleistungsfähiger Datenspeicher, der für Lesevorgänge optimiert ist und ungenaue oder fuzzy-Abfragen verarbeiten kann und gleichzeitig relevante Ergebnisse zurückgibt. Wählen Sie die Indextechnologie aus, um diese Punkte zu berücksichtigen.

Welche Suchtypen werden vom Suchindex unterstützt?

Jede Anforderung an das System kann zu einer oder mehreren Abfragen zum Index führen. Bei Retrieval-augmented Generation (RAG) und anderen AI-unterstützten Workloads ist die Vektorsuche ein Muss. Die Vektorsuche ermöglicht es dem System, semantisch ähnliche Datenpunkte mithilfe von Einbettungen anstelle exakter Stichwortübereinstimmungen zu finden.

Durch die Kombination der Vektorsuche mit Volltextsuche, Filterung und speziellen Datentypen (z. B. geo-location) wird der Index jedoch wesentlich leistungsstärker.

Ihr Datenentwurf sollte eindeutig angeben, welche Suchtypen erforderlich sind und wie sie zusammenarbeiten sollen. Weitere Informationen finden Sie unter Effiziente Abfrage im Datenentwurf.

Wie behandelt der Index multimodale Daten?

KI-Workloads behandeln häufig Daten, die nicht nur Text, sondern auch Bilder, Audio oder Video enthalten. Der Index selbst kann Bilder nicht direkt verstehen. Bevor Sie dem Index Bilder hinzufügen, müssen sie entweder in eine textbasierte Darstellung (mit OCR oder Bildbeschriftung) konvertiert werden, aus der Einbettungen generiert werden, oder Vektoreinbettungen mithilfe von Visionsmodellen direkt aus dem Bild generiert werden. Der Index kann dann die Vektorsuche durchführen und semantische Abfragen zulassen.

In diesem Anwendungsfall sollte der Suchindex folgendes aufweisen:

  • Unterstützung der Vektorsuche zum Speichern und Abfragen von Einbettungen (numerische Vektoren), die vom Bild abgeleitet sind.
  • Integration mit externen APIs und KI-Diensten zum Extrahieren oder Anreichern von Daten während des Indizierungsprozesses.
  • Möglichkeit zum Speichern extrahierter Felder (Text, Tags, Beschriftungen, Einbettungen) in entsprechenden Schemafeldern als Metadaten für die Suche und Filterung.

Unterstützt der Index die Funktionen für automatische Aktualisierungen, wenn sich die Daten in den Datenquellen ändern?

Die Automatisierung ist entscheidend für die Aufrechterhaltung der Datenfrische. Wählen Sie einen Index aus, der automatische Aktualisierungen oder inkrementelle Aktualisierungen unterstützt, wenn sich die zugrunde liegenden Daten ändern.

Wenn die Plattform dies nicht nativ bietet, müssen Sie einen benutzerdefinierten Prozess implementieren, um Updates zu erkennen und zu pushen. Das Auslagern dieser Verantwortung auf die Plattform kann den Betriebsaufwand reduzieren und die Wartung vereinfachen, insbesondere wenn die Datenvolumes wachsen.

Kann der Index mit großen Datenmengen ausgeführt werden?

Der Index muss effizient skaliert werden, wenn das Datenvolumen wächst. Bei Arbeitslasten, die RAG implementieren, wird jedes Dokument häufig in mehrere Blöcke aufgeteilt, wodurch die Menge der gespeicherten Daten erheblich erhöht wird.

Ihre gewählte Plattform sollte folgende Möglichkeiten haben:

  • Horizontal skalieren, wenn Daten wachsen
  • Aufrechterhaltung der Abfrageleistung unter hoher Last
  • Speichern von Rohdaten und verwandten Metadaten, Anreicherungen und Entitäten

Verfügt der Index über integrierte Zuverlässigkeitsfeatures?

Zuverlässigkeit für den Suchindex sollte die des Inference-Endpunkts spiegeln, da beide Teil desselben Echtzeitverarbeitungspfads sind.

Jeder Schritt muss ähnliche Uptime- und Performance-Erwartungen erfüllen. Um dies zu erreichen, suchen Sie beim Auswählen der Datenplattform nach:

  • Hohe Verfügbarkeits- und Zonenredundanzfunktionen, um zonale und regionale Ausfälle zu überstehen.
  • Automatische Wiederherstellung und einfache Indexerstellung, um die Verwendung eines beschädigten Indexes für die Ableitung zu verhindern.
  • Indexaliasing- oder Swap-Funktionen, um Updates ohne Ausfallzeiten zu aktivieren.

Verstehen Sie auch die Fehlermodi oder Stressindikatoren des Systems, z. B. Drosselung. Beispielsweise kann der Durchsatz während der Reindizierung im Hintergrund abnehmen. Das System kann normalerweise 50 gleichzeitige Benutzer verarbeiten, aber nur 30 während dieses Auftrags. Planen Sie die Zeitdauer und Kapazität des Auftrags entsprechend, und berücksichtigen Sie sowohl Front-End-Abfragen als auch Back-End-Wartungsaufgaben.

Was sind die wichtigsten Kostentreiber dieser Technologie?

Suchindexkosten sind in der Regel nutzungsbasiert, daher ist es wichtig, das erwartete Datenvolumen, die Abfragerate und den Durchsatz zu modellieren.

Die meisten Indexplattformen, z. B. Azure AI Search, sind Plattform-as-a-Service-Angebote (PaaS), bei denen Preise abstrahiert und in Einheiten von Kapazität, Speicher und Featurenutzung dargestellt werden.

Achten Sie darauf:

  • Stufenbasierte Preisgestaltung und Skalierungsgrenzen
  • Zusätzliche Kosten von erweiterten Features (z. B. Bildextraktion oder Kompetenzanreicherung)
  • Nicht verwendete Kapazität in überprovisionierten Ebenen
  • Indexkomplexität (Anzahl der Indizes und gleichzeitigen Abfragegrenzwerte)

Informationen zu den Mit AI Search verbundenen Kosten finden Sie unter "Planen und Verwalten von Kosten einer KI-Suchdienst".

Erfüllen die Sicherheitsfeatures des Indexes Ihr Sicherheitsdatendesign?

Ihr Datendesign sollte die Sicherheits- und Datenschutzanforderungen eindeutig angeben, und Ihr Index muss sie vollständig unterstützen. Wenn Sie in Entwicklungs- oder Testumgebungen arbeiten, die echte Daten verwenden, stellen Sie sicher, dass der Index den Zugriffssteuerungs- und Rückverfolgbarkeitsrichtlinien entspricht. Suchen Sie nach Features wie:

  • Datenmaskierung und Entfernung personenbezogener Daten
  • Clientidentitätsverwaltung über Microsoft Entra ID
  • Zugriffssteuerelemente auf Dokumentebene zum Filtern von Ergebnissen basierend auf der Benutzeridentität

Wenn die Plattform diese nicht nativ unterstützt, sollten Sie die Implementierung von Filter auf Abfrageebene als Fallback in Betracht ziehen. Weitere Informationen finden Sie unter Sicherheitsfilter zum Kürzen von Ergebnissen in der KI-Suche.

Aus Sicht der Netzwerksicherheit sollte der Index:

  • Unterstützen der Steuerung des Ausgangs und der Netzwerksegmentierung
  • Integrieren Sie mit privaten Netzwerken, wenn die Berechnung in einem virtuellen Netzwerk ausgeführt wird.
  • Verwenden von verwalteten Identitäten für die Authentifizierung über die Microsoft Entra-ID
  • Vermeiden Sie die direkte Veröffentlichung von Komponenten für das öffentliche Internet

Einbettungen können weiterhin vertrauliche Informationen verfügbar machen, wenn sie nicht ordnungsgemäß gesichert sind. Zu den Risiken gehören einbettende Inversion (Rekonstruieren von Originaltext aus Vektoren), Datenvergiftungen (Einfügen bösartiger Vektoren) und nicht autorisierter Zugriff auf einbettende Speicher oder Sicherungen. Um diese Risiken zu mindern, wenden Sie Sicherheitsmaßnahmen wie folgt an:

  • Verschlüsselung im Ruhezustand und während der Übertragung
  • Strenge Zugriffssteuerungen
  • Oben besprochene private Netzwerkkonnektivität
  • Überwachen von Einbettungsendpunkten auf Anomalien oder Manipulationen

Ähnlich wie bei anderen Arten von Daten sollten Prozesse vorhanden sein, um vertrauliche oder personenbezogene Daten zu entfernen. Behandeln Sie Vektorindizes als vertrauliche Datenspeicher, die dieselbe Sicherheits- und Governancestufe wie andere Produktionssysteme erfordern.

Technologieoptionen

Function Empfohlene Technologien Alternativen / Ergänzende Werkzeuge
Vektorsuche und semantische Suche Azure AI Search, Azure Cosmos DB (Vektorsuche), Azure-Datenbank für PostgreSQL (pgvector) Pinecone, Weaviate, Chroma, Qdrant
Volltextsuche und Stichwortindizierung Azure KI-Suche Elasticsearch, Apache Solr, Azure SQL Database Full-Text Search
Multimodale Datenverarbeitung Azure AI Search (mit Fähigkeiten), Azure AI Document Intelligence, Azure AI Vision Benutzerdefinierte Verarbeitung mit OpenAI-APIs, Amazon Textract
Automatische Datenaktualisierung und Indizierung Azure AI Search (mit Indexern), Azure Data Factory-Trigger Benutzerdefinierte Abfragelösungen, Apache NiFi, Änderungsdatenerfassung
Hohe Verfügbarkeit und Zuverlässigkeit Azure AI Search (Zonenredundanz), Azure Cosmos DB (globale Verteilung) Bereitstellungen mit mehreren Regionen, Lastenausgleichsmodulen, Azure Traffic Manager
Index-Aliasing und unterbrechungsfreie Updates Azure AI Search (Index-Aliase), Azure Cosmos DB Blaugrüne Bereitstellungsmuster, benutzerdefinierte Routinglogik
Sicherheit und Zugriffssteuerung auf Dokumentebene Azure AI Search (Sicherheitsfilter), Microsoft Entra ID-Integration Benutzerdefinierte Autorisierungsebenen, Sicherheit auf Zeilenebene in Datenbanken
Netzwerksicherheit und privater Zugriff Azure Private Link, Virtual Network integration, Managed Identities VPN-Gateways, Azure Firewall, benutzerdefinierte Netzwerksicherheitsgruppen

Überlegungen zur Schulung und Feinabstimmung

Beim Entwerfen Ihrer Datenplattform für herkömmliche Machine Learning -Workloads (ML) oder Nicht-GenAI-Workloads wechselt Ihr Fokus von Echtzeitableitungen zu Datenqualität, Reproduzierbarkeit und Umgebungstrennung. Diese Workloads basieren auf gut strukturierten aggregierten Daten und umfassen häufig zusätzliche Ebenen, z. B. Featurespeicher und Batch-Ableitungsdatenspeicher, um die Modellleistung und Kosteneffizienz zu optimieren.

Es wird dringend empfohlen, die Prinzipien eines guten Datenpipelinedesigns zu verstehen, bevor Sie die in diesem Artikel beschriebenen technologischen Funktionen erkunden. Weitere Informationen finden Sie im Design von Schulungsdaten.

Planen Sie eine Schulung mit Produktionsdaten?

Wie Sie Ihre Modelle bereitstellen, bestimmt, wie eng Produktionsdaten mit Ihrer Entwicklungsumgebung gekoppelt sind. Es gibt zwei Hauptbereitstellungsansätze.

  • Modellbereitstellung. Das Modell wird während der Entwicklung mithilfe von Produktionsdaten trainiert oder abgestimmt. Dieser Ansatz kann die Modellrelevanz verbessern, erfordert jedoch starke Sicherheitskontrollen, da vertrauliche Daten außerhalb der Produktion verwendet werden.

  • Codebereitstellung. Das Modell wird mithilfe von Nichtproduktionsdaten in der Entwicklung trainiert und interagiert nur mit realen Daten, sobald es in der Produktion bereitgestellt wird. Diese Methode vereinfacht die Entwicklungssicherheit, kann aber die Rechen- und Speicherkosten erhöhen, da Schulungen in mehreren Umgebungen wiederholt werden müssen.

Unabhängig vom Ansatz sollte Ihre Datenplattform Entwicklungs- und Produktionsumgebungen klar trennen und eine ordnungsgemäße Isolierung und Zugriffssteuerung gewährleisten.

Priorisieren Sie den Komfort gegenüber der Funktionalität?

Wenn Sie eine Datenplattform für maschinelles Lernen auswählen, treffen Sie die Entscheidung nicht ausschließlich basierend auf der Unterstützung für Notizbücher.

Notizbücher eignen sich hervorragend für explorative Datenanalysen, aber sie sind kein entscheidungsrelevanter Faktor für die Auswahl einer Datenplattform auf Produktionsniveau. Notebook-Rechenressourcen befinden sich üblicherweise außerhalb des Aggregationsdatenspeichers und sind in externe Tools wie Azure Machine Learning oder Databricks Workspaces integriert.

Priorisieren Sie Kernfunktionen, z. B. Datenversionsverwaltung, Governance, Skalierbarkeit und Sicherheit, über Komfortfeatures.

Wie verarbeiten und bereiten Sie Ihre Daten vor?

In ML-Workloads hat das gewählte Datenverarbeitungsmuster große Auswirkungen auf Flexibilität und Leistung.

  • ETL (Extract, Transform, Load) – Häufig in traditionellen Data-Warehouses anzutreffen, wo Schemaeinschränkungen es erforderlich machen, dass Daten vor dem Laden in das Zielsystem transformiert werden müssen.
  • ELT (Extract, Load, Transform) – Typisch für Datenseen oder Lakehouse-Architektur, bei der rohe Daten zuerst geladen werden, dann später mithilfe von Tools wie Python oder PySpark transformiert werden.
  • EL (Extrahieren, Laden) – Üblich in GenAI- und RAG-Mustern, bei denen Sie Dokumente oder Medien zuerst speichern und später nachgeschaltete Transformationen (z. B. Textblöcke oder Bildextraktion) durchführen.

ELT wird häufig bevorzugt, da rohe Daten beibehalten werden und während der Modellvorbereitung flexiblere Transformationen ermöglicht werden.

Benötigen Sie einen Feature Store?

Es ist häufig vorteilhaft, einen Featurespeicher als Zwischendatenschicht zwischen dem aggregierten Datenspeicher und der Schulungsumgebung einzuführen.

Ein Featurespeicher fungiert als Katalog zusammengestellter Features, vollständig mit Metadaten wie Funktionslinie, Generationszeit und Quelle. Es ist der perfekte Ort, um "goldene" Schulungsdaten zu verwalten, die in mehreren Modellen oder Experimenten wiederverwendet werden können.

Verwaltete Featurespeicher, z. B. die in Azure Machine Learning, können direkt in MLflow und andere ML-Lebenszyklustools integriert werden. Sie ermöglichen die Reproduzierbarkeit, Governance und Versionsverwaltung für Ihre Features.

Behandeln Sie den Featurespeicher als vertraulichen Datenspeicher selbst mit ordnungsgemäßen Zugriffssteuerungen, Verschlüsselung und Überwachung.

Sollten Sie einen Batch-Ableitungsdatenspeicher verwenden?

In einigen Fällen können Sie die Leistung verbessern und Kosten reduzieren, indem Sie die Ableitung im Batch durchführen, d. h. vorab berechnende Ableitungsergebnisse und speichern sie zur späteren Verwendung, anstatt das Modell in Echtzeit aufzurufen.

Dieser Ansatz kann sehr effektiv sein, wenn dieselben Abfragen oder Vorhersagen wiederholt angefordert werden (z. B. Generieren von HÄUFIG gestellten Fragen oder Standardempfehlungen).

Zu den wichtigsten Vorteilen gehören:

  • Reduzierte Latenz und verbesserte Benutzererfahrung, Ergebnisse werden sofort bereitgestellt.
  • Einfachere Skalierbarkeit, da Ableitungen im Batch verteilt und offline verteilt werden können.
  • Verbesserte Zuverlässigkeit, die eine Echtzeitbelastung des Inference-Endpoints vermeidet.
  • Niedrigere Rechenkosten, die sich aus der Batchverarbeitung ergeben, können kostengünstigere Hardware verwenden.
  • Integrierte Vorabüberprüfung, bei der Die Ergebnisse auf Genauigkeit überprüft werden können, bevor sie Benutzern offengelegt werden.

Dieser Ansatz funktioniert jedoch am besten, wenn ein erheblicher Prozentsatz der Vorhersagen wiederverwendet wird. Wenn Ihre Workload hauptsächlich eindeutige Abfragen umfasst, ist die Verwaltung eines Batch-Ableitungsspeichers möglicherweise nicht die Komplexität wert.

Ihr Batch-Ableitungsdatenspeicher sollte für Lesevorgänge optimiert, skalierbar genug für die Verarbeitung großer Datasets und für die Integration in Den aggregierten Datenspeicher sein.

Technologien, die diesem Schema entsprechen, umfassen Azure Cosmos DB für schnellen, global verteilten Zugriff oder Azure Table Storage für einfachere, kostengünstigere Lesebelastungen.

Technologieoptionen

Function Empfohlene Technologien Alternativen / ergänzende Werkzeuge
Aggregierter Datenspeicher Azure Data Lake Storage Gen2, Microsoft Fabric Lakehouse, Azure Synapse Analytics Azure Blob Storage, SQL-Datenbank, lokales Data Warehouse
Datenverarbeitung und -transformation (ETL/ELT) Azure Data Factory, Azure Databricks (PySpark, SQL), Microsoft Fabric Data Engineering Apache Airflow, Apache NiFi, Synapse Pipelines
Entwicklungs- und Schulungsumgebung Azure Machine Learning (mit MLflow-Integration), Azure Databricks-Arbeitsbereiche JupyterHub, Kubeflow, Amazon SageMaker
Feature Store Azure Machine Learning Feature Store, Databricks Feature Store Fest (Open Source), Tecton
Batch-Ableitung Azure Cosmos DB, Azure Table Storage Azure SQL-Datenbank, PostgreSQL, Redis-Cache
Modellregistrierung und Experimentverfolgung MLflow (integriert in Azure Machine Learning oder Databricks) Gewichte und Biases, Neptune.ai, DVC
Orchestrierung und Automatisierung Azure Data Factory Pipelines, Azure Machine Learning Pipelines Apache Airflow, Präfect
Sicherheit und Zugriffssteuerung Microsoft Entra ID (Azure AD), Azure Key Vault, verwaltete Identitäten HashiCorp Vault, AWS IAM

Nächste Schritte