Freigeben über


Konfigurieren und Ausführen der Datenprofilerstellung für eine Datenressource

Bei der Datenprofilerstellung werden die in verschiedenen Datenquellen verfügbaren Daten untersucht und Statistiken und Informationen zu diesen Daten gesammelt. Die Datenprofilerstellung hilft Ihnen, das Qualitätsniveau der Daten gemäß einer definierten Gruppe von Zielen zu bewerten. Wenn Daten von schlechter Qualität sind oder in Strukturen verwaltet werden, die nicht integriert werden können, um die Anforderungen der organization zu erfüllen, leiden Geschäftsprozesse und Entscheidungsfindung. Die Datenprofilerstellung ermöglicht Es Ihnen, die Vertrauenswürdigkeit und Qualität Ihrer Daten zu verstehen, was eine Voraussetzung für datengesteuerte Entscheidungen ist, die den Umsatz steigern und das Wachstum fördern.

Voraussetzungen

  • Um Überprüfungen zur Datenqualitätsbewertung ausführen und planen zu können, müssen Ihre Benutzer in der Data Quality Steward-Rolle sein.
  • Derzeit können Sie das Microsoft Purview-Konto so festlegen, dass der öffentliche Zugriff oder der Zugriff auf verwaltete virtuelle Netzwerke zugelassen wird, damit Überprüfungen der Datenqualität ausgeführt werden können.

Lebenszyklus der Datenqualität

Die Datenprofilerstellung ist der fünfte Schritt im Lebenszyklus der Datenqualität für eine Datenressource. Die vorherigen Schritte sind:

  1. Weisen Sie Benutzern Data Quality Steward-Berechtigungen in Unified Catalog zu, um alle Data Quality-Features zu verwenden.
  2. Registrieren und überprüfen Sie eine Datenquelle in Ihrer Purview Data Map.
  3. Hinzufügen Ihrer Datenressource zu einem Datenprodukt
  4. Richten Sie eine Datenquellenverbindung ein, um Ihre Quelle für die Bewertung der Datenqualität vorzubereiten.

Unterstützte Multiclouddatenquellen

Durchsuchen Sie das Unterstützte Datenquellendokument , um die Liste der unterstützten Datenquellen anzuzeigen, einschließlich Dateiformaten für die Datenprofilerstellung und Datenqualitätsüberprüfung mit und ohne Unterstützung für virtuelle Netzwerke.

Wichtig

Die Datenqualität für Parquet-Dateien ist so konzipiert, dass Folgendes unterstützt wird:

  1. Ein Verzeichnis mit Parquet-Part-Datei. Beispiel: ./Sales/{Parquet Part Files}. Der vollqualifizierte Name muss folgen https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Stellen Sie sicher, dass keine {n}-Muster in der Verzeichnis- oder Unterverzeichnisstruktur vorhanden sind. Es muss ein direkter FQN sein, der zu {SparkPartitions} führt.
  2. Ein Verzeichnis mit partitionierten Parquet-Dateien, partitioniert nach Spalten innerhalb des Datasets, z. B. Nach Jahr und Monat partitionierte Verkaufsdaten. Beispiel: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Beide wichtigen Szenarien, die ein konsistentes Parquet-Datasetschema aufweisen, werden unterstützt. Einschränkung: Es ist nicht für N beliebige Hierarchien von Verzeichnissen mit Parquet-Dateien konzipiert oder wird nicht unterstützt. Es wird empfohlen, Daten in (1) oder (2) konstruierter Struktur darzustellen.

Unterstützte Authentifizierungsmethoden

Derzeit kann Microsoft Purview nur Überprüfungen der Datenqualität mithilfe der Authentifizierungsoption "Verwaltete Identität" ausführen. Data Quality Services werden unter Apache Spark 3.4 und Delta Lake 2.4 ausgeführt. Weitere Informationen zu unterstützten Regionen finden Sie in der Übersicht über die Datenqualität.

Wichtig

  • Wenn Sie das Schema für die Datenquelle aktualisieren, müssen Sie eine Data Map-Überprüfung erneut ausführen, bevor Sie eine Datenprofilerstellung ausführen. Sie können das Schema mithilfe des Schemaimportfeatures von der Übersichtsseite der Datenqualität importieren. Wenn Ihre Datenquelle in einem verwalteten virtuellen Netzwerk oder einem privaten Endpunkt ausgeführt wird, wird das Schemaimportfeature nicht unterstützt.
  • Virtuelle Netzwerke werden für Azure Databricks, Google BigQuery und Snowflake nicht unterstützt.
  • In der aktuellen Version können Sie ein Profil von 50 Spalten pro Batch erstellen. Wenn Ihre Datenressource über mehr als 50 Spalten verfügt, können Sie zusätzliche Spalten in mehr Batches erstellen.
  • Wenn eine Spalte einen eindeutigen Wert enthält, sollten Sie kein Profil für diese Spalte erstellen. Eine Spalte mit unterschiedlichen Werten kann keine Normalverteilung erstellen.

Schritte zum Konfigurieren des Datenprofilerstellungsauftrags

  1. Konfigurieren Sie eine Datenquellenverbindung mit den Ressourcen, die Sie auf Datenqualität überprüfen , sofern noch nicht geschehen.

  2. Wählen Sie Microsoft Purview Unified Catalog integritätsverwaltung und dann Datenqualität aus.

  3. Wählen Sie in der Liste eine Governancedomäne aus.

  4. Wählen Sie ein Datenprodukt aus, um ein Profil für eine Datenressource zu erstellen, die mit diesem Produkt verknüpft ist.

  5. Wählen Sie ein Datenasset aus, um zur Übersichtsseite der Datenqualität für die Profilerstellung zu navigieren.

  6. Wählen Sie die Schaltfläche Profil aus, um den Profilerstellungsauftrag für das ausgewählte Datenasset auszuführen.

  7. Die KI-Empfehlungs-Engine schlägt potenziell wichtige Spalten vor, für die die Datenprofilerstellung ausgeführt werden soll. Sie können die Auswahl empfohlener Spalten deaktivieren und/oder weitere Spalten auswählen, für die ein Profil erstellt werden soll.

  8. Nachdem Sie die relevanten Spalten ausgewählt haben, wählen Sie Ausführungsprofil aus.

  9. Während der Ausführung des Auftrags können Sie den Fortschritt auf der Seite zur Überwachung der Datenqualität in der Governancedomäne nachverfolgen.

  10. Wenn der Auftrag abgeschlossen ist, wählen Sie im linken Menü der Datenqualitätsseite des Medienobjekts die Registerkarte Profil aus, um das Profilerstellungsergebnis und die statistischen Momentaufnahme aufzulisten. Je nachdem, wie viele Spalten Ihre Datenressourcen haben, können mehrere Profilergebnisseiten vorhanden sein.

  11. Durchsuchen Sie die Profilerstellungsergebnisse und statistischen Measures für jede Spalte.

Grundlegendes zu Profilerstellungsergebnissen

  • Minimum: Minimale Länge der Zeichen in der Spalte.
  • Maximum: Maximale Länge der Zeichen in der Spalte.
  • Verteilung: Normale Verteilung Ihrer Daten.
  • Eindeutige Werte: Werte, die sich nicht wiederholen; sie sind einzigartig.
  • Doppelte Werte: Werte, die sich mehrmals wiederholen.
  • Leere/leere Werte: Die Spalte ist leer oder leer.
  • Null: NULL-Werte in der Spalte.
  • Mittelwert: Mittlerer Wert oder arithmetischer Durchschnitt.
  • Standard Abweichung: Ein statistisches Measure, das die Menge der Abweichung oder Streuung in einem Satz von Werten quantifiziert.

Nächste Schritte

  1. Richten Sie Datenqualitätsregeln basierend auf den Profilerstellungsergebnissen ein, und wenden Sie sie auf Ihre Datenressource an.
  2. Konfigurieren und Ausführen einer Datenqualitätsüberprüfung für ein Datenprodukt, um die Qualität aller unterstützten Ressourcen im Datenprodukt zu bewerten.
  3. Überprüfen Sie Ihre Scanergebnisse , um die aktuelle Datenqualität Ihres Datenprodukts zu bewerten.