Freigeben über


Konfigurieren und Ausführen einer Datenqualitätsüberprüfung

Datenqualitätsscans überprüfen Ihre Datenressourcen basierend auf den angewendeten Datenqualitätsregeln und erzeugen eine Bewertung. Ihre Data Stewards können diese Bewertung verwenden, um die Datenintegrität zu bewerten und alle Probleme zu beheben, die die Qualität Ihrer Daten verringern könnten.

Voraussetzungen

  • Um Überprüfungen zur Datenqualitätsbewertung auszuführen und zu planen, benötigen Benutzer die Data Quality Steward-Rolle.
  • Derzeit können Sie das Microsoft Purview-Konto so festlegen, dass der öffentliche Zugriff oder der Zugriff auf verwaltete virtuelle Netzwerke zugelassen wird, damit Überprüfungen der Datenqualität ausgeführt werden können.

Lebenszyklus der Datenqualität

Die Überprüfung der Datenqualität ist der siebte Schritt im Lebenszyklus der Datenqualität für eine Datenressource. Die vorherigen Schritte sind:

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Microsoft Purview Unified Catalog zu, damit sie alle Data Quality-Features verwenden können.
  2. Registrieren und überprüfen Sie eine Datenquelle in Microsoft Purview Data Map.
  3. Hinzufügen Ihrer Datenressource zu einem Datenprodukt
  4. Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.
  5. Konfigurieren und Ausführen der Datenprofilerstellung für ein Medienobjekt in Ihrer Datenquelle.
    1. Wenn die Profilerstellung abgeschlossen ist, durchsuchen Sie die Ergebnisse für jede Spalte in der Datenressource, um die aktuelle Struktur und den aktuellen Status Ihrer Daten zu verstehen.
  6. Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.

Unterstützte Multiclouddatenquellen

Durchsuchen Sie das Unterstützte Datenquellendokument , um die Liste der unterstützten Datenquellen anzuzeigen, einschließlich Dateiformaten für die Datenprofilerstellung und Datenqualitätsüberprüfung mit und ohne Unterstützung für virtuelle Netzwerke.

Wichtig

Die Datenqualität für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

  1. Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis-/Unterverzeichnisstruktur vorhanden sind. Es muss ein direkter FQN sein, der zu {SparkPartitions} führt.
  2. Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema aufweisen, werden unterstützt. Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt. Es wird empfohlen, Daten in (1) oder (2) konstruierter Struktur darzustellen.

Unterstützte Authentifizierungsmethoden

Derzeit kann Microsoft Purview nur Überprüfungen der Datenqualität mithilfe der Authentifizierungsoption "Verwaltete Identität" ausführen. Data Quality Services werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt. Weitere Informationen zu unterstützten Regionen finden Sie unter Übersicht über die Datenqualität.

Wichtig

  • Wenn Sie das Schema für die Datenquelle aktualisieren, müssen Sie die Datenzuordnungsüberprüfung erneut ausführen, bevor Sie eine Datenqualitätsüberprüfung ausführen. Sie können das Schemaimportfeature auch auf der Übersichtsseite der Datenqualität verwenden.
  • Der Schemaimport wird für Datenquellen, die auf verwalteten Virtual Network oder privaten Endpunkten ausgeführt werden, nicht unterstützt.
  • Virtuelle Netzwerke werden für Google BigQuery nicht unterstützt.

Ausführen einer Datenqualitätsüberprüfung

  1. Konfigurieren Sie eine Datenquellenverbindung mit den Ressourcen, die Sie auf Datenqualität überprüfen , sofern noch nicht geschehen.

  2. Wählen Sie Unified Catalog die Option Integritätsverwaltung und dann Datenqualität aus.

  3. Wählen Sie in der Liste eine Governancedomäne aus.

  4. Wählen Sie ein Datenprodukt aus, um die Datenqualität der mit diesem Produkt verknüpften Datenressourcen zu bewerten.

  5. Wählen Sie den Namen einer Datenressource aus, um zur Seite Übersicht über die Datenqualität zu gelangen.

  6. Durchsuchen Sie die vorhandenen Data Quality-Regeln, und fügen Sie neue Regeln hinzu, indem Sie Regeln auswählen. Durchsuchen Sie das Schema der Datenressource, indem Sie Schema auswählen. Schalten Sie die hinzugefügten Regeln ein oder aus.

  7. Führen Sie die Qualitätsüberprüfung aus, indem Sie auf der Übersichtsseite Die Option Qualitätsüberprüfung ausführen auswählen.

  8. Während die Überprüfung ausgeführt wird, können Sie den Fortschritt auf der Seite zur Überwachung der Datenqualität in der Governancedomäne nachverfolgen.

Planen von Datenqualitätsüberprüfungen

Obwohl Sie Datenqualitätsscans auf Ad-hoc-Basis ausführen können, indem Sie Qualitätsüberprüfung ausführen auswählen, werden die Quelldaten in Produktionsszenarien wahrscheinlich ständig aktualisiert. Sie sollten die Datenqualität regelmäßig überwachen, um Probleme zu erkennen. Durch die Automatisierung des Überprüfungsprozesses können Sie regelmäßige Updates von Qualitätsscans verwalten.

  1. Wählen Sie Unified Catalog die Option Integritätsverwaltung und dann Datenqualität aus.

  2. Wählen Sie in der Liste eine Governancedomäne aus.

  3. Wählen Sie Verwalten und dann Geplante Überprüfungen aus.

  4. Füllen Sie das Formular auf der Seite Geplante Überprüfung erstellen aus. Fügen Sie einen Namen und eine Beschreibung für die Quelle hinzu, für die Sie den Zeitplan einrichten.

  5. Wählen Sie Weiter.

  6. Wählen Sie auf der Registerkarte Bereich einzelne Datenprodukte und Ressourcen oder alle Datenprodukte und Datenressourcen der gesamten Governancedomäne aus.

  7. Wählen Sie Weiter.

  8. Legen Sie einen Zeitplan basierend auf Ihren Einstellungen fest, und wählen Sie Weiter aus.

  9. Wählen Sie auf der Registerkarte Überprüfen die Option Speichern (oder Speichern und sofort ausführen ) aus, um die Planung der Überprüfung der Datenqualitätsbewertung abzuschließen.

Sie können geplante Überprüfungen auf der Seite Data Quality-Auftragsüberwachung auf der Registerkarte Scans überwachen.

Hinweis

Sie können nicht mehr als 30 Ressourcen für alle Datenprodukte in einem einzigen Zeitplan hinzufügen. Erstellen Sie mehrere Zeitpläne für 30 Ressourcen pro Batch. Sie können so konfigurieren, dass mehrere Zeitpläne im selben Zeitfenster ausgeführt werden.

Löschen vorheriger Datenqualitätsüberprüfungen und -verlauf

Wenn Sie eine Datenressource aus einem Datenprodukt entfernen und diese Datenressource über eine Datenqualitätsbewertung verfügt, müssen Sie zuerst die Datenqualitätsbewertung löschen und dann die Datenressource aus dem Datenprodukt entfernen.

Wenn Sie Datenqualitätsverlaufsdaten löschen, werden der Profilverlauf, der Verlauf der Datenqualitätsüberprüfung und Die Datenqualitätsregeln entfernt. Data Quality-Aktionen werden jedoch nicht gelöscht.

Führen Sie die folgenden Schritte aus, um vorherige Datenqualitätsüberprüfungen einer Datenressource zu löschen:

  1. Wählen Sie Unified Catalog die Option Integritätsverwaltung und dann Datenqualität aus.
  2. Wählen Sie in der Liste eine Governancedomäne aus.
  3. Wählen Sie das Datenprodukt aus der Liste aus.
  4. Wählen Sie die Datenressource aus der Liste aus, um zur Übersichtsseite Datenqualität zu navigieren.
  5. Wählen Sie oben rechts auf der Übersichtsseite Datenqualität die Auslassungspunkte (...) aus.
  6. Wählen Sie Datenqualitätsdaten löschen aus, um den Verlauf der Datenqualitätsausführungen zu löschen.

Hinweis

  • Verwenden Sie Datenqualitätsdaten löschen für Testläufe, fehlerhafte Datenqualitätsausführungen oder wenn Sie ein Datenobjekt aus einem Datenprodukt entfernen.
  • Das System speichert bis zu 50 Momentaufnahmen der Datenqualitätsprofilerstellung und des Verlaufs der Datenqualitätsbewertung. Wenn Sie eine bestimmte Momentaufnahme löschen möchten, wählen Sie die gewünschte Verlaufsausführung und dann das Symbol zum Löschen aus.

Schemaimport

Wenn der Datentyp in einem Schema nicht definiert, falsch definiert oder in der Quelle geändert wird, schlägt der Data Quality-Auftrag möglicherweise fehl. Wenn ein Fehler auftritt, importieren Sie das Schema mithilfe der Funktion zum Importieren des Schemas erneut. Der Schemaimport wird für Datenquellen in öffentlichen Netzwerken und hinter privaten Endpunkten unterstützt. Die unterstützten Datenquellen sind unter Datenquellen und Dateiformate aufgeführt, die für die Datenqualität unterstützt werden. Führen Sie die folgenden Schritte aus, um ein Schema aus Ihren Datenquellen zu importieren:

  • Wählen Sie im Integritätsmanagementdie Option Datenqualität aus.
  • Wählen Sie eine Geschäftsdomäne, dann ein Datenprodukt und dann eine Datenressource aus diesem Datenprodukt aus. Sie gelangen zur Übersichtsseite der Datenqualität.
  • Wählen Sie Schema und dann die Umschaltfläche Schemaverwaltung aus.
  • Wählen Sie Schema importieren aus, um das Schema zu importieren.

Nächste Schritte