Freigeben über


Datenprofilerstellungs-Task

Der Datenprofilerstellungs-Task berechnet verschiedene Profile, mit deren Hilfe Sie sich mit einer Datenquelle vertraut machen und Probleme bei den Daten identifizieren können, die behoben werden müssen.

Den Datenprofilerstellungs-Task können Sie innerhalb eines Integration Services -Pakets verwenden, um ein Profil der in SQL Server gespeicherten Daten zu erstellen und potenzielle Probleme mit der Datenqualität zu identifizieren.

Hinweis

In diesem Thema werden nur die Funktionen und Anforderungen des Datenprofilerstellungs-Tasks beschrieben. Eine exemplarische Vorgehensweise zur Verwendung des Datenprofilerstellungs-Tasks finden Sie im Abschnitt Datenprofilerstellungs-Task und -Viewer.

Anforderungen und Einschränkungen

Der Datenprofilerstellungs-Task funktioniert nur mit Daten, die in SQL Servergespeichert werden. Dieser Task funktioniert nicht mit Datenquellen von Drittanbietern oder dateibasierten Datenquellen.

Um das Paket auszuführen, das den Datenprofilerstellungs-Task enthält, müssen Sie zudem ein Konto verwenden, das über Lese-/Schreibberechtigungen sowie CREATE TABLE-Berechtigungen für die tempdb-Datenbank verfügt.

Datenprofil-Viewer

Nachdem Sie Datenprofile mit dem Task berechnet und in einer Datei gespeichert haben, können Sie die Profilausgabe mit dem eigenständigen Datenprofil-Viewer überprüfen. Der Datenprofil-Viewer unterstützt außerdem Drilldownfunktionen, mit deren Hilfe Sie Probleme mit der Datenqualität verstehen können, die in der Profilausgabe identifiziert werden. Weitere Informationen finden Sie unter Datenprofil-Viewer.

Von Bedeutung

Die Ausgabedatei enthält möglicherweise sensible Daten über die Datenbank und die Daten in der Datenbank. Vorschläge zur Verbesserung der Sicherheit dieser Datei finden Sie unter Zugriff auf Dateien, die von Paketen verwendet werden.

Die Drilldownfunktion, die im Datenprofil-Viewer zur Verfügung steht, sendet Live-Abfragen an die ursprüngliche Datenquelle.

Verfügbare Profile

Der Datenprofilerstellungs-Task kann acht verschiedene Datenprofile berechnen. Fünf Profile analysieren einzelne Spalten und die restlichen drei analysieren mehrere Spalten oder Beziehungen zwischen Spalten und Tabellen.

Die folgenden fünf Profile analysieren einzelne Spalten.

Profile, die einzelne Spalten analysieren BESCHREIBUNG
Verteilungsprofil für Spaltenlänge Meldet alle eindeutigen Längen der Zeichenfolgenwerte in der ausgewählten Spalte sowie den Prozentsatz der Zeilen in der Tabelle, die jede Länge repräsentiert.

Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil einer Spalte mit den Codes der US-amerikanischen Bundesstaaten, die zwei Zeichen lang sein sollen, und entdecken Werte, die länger als zwei Zeichen sind.
Profil für Spalten-NULL-Verhältnis Meldet den Prozentsatz der NULL-Werte in der ausgewählten Spalte.

Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. ein unerwartet hohes Verhältnis der NULL-Werte in einer Spalte. Beispiel: Sie erstellen ein Profil der Spalte für die Postleitzahl und entdecken einen unerwartet hohen Prozentsatz an fehlenden Codes.
Spaltenmusterprofil Meldet einen Satz von regulären Ausdrücken, die den angegebenen Prozentsatz der Werte in einer Zeichenfolgenspalte abdecken.

Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. Zeichenfolgen, die nicht gültig sind. Dieses Profil kann außerdem reguläre Ausdrücke vorschlagen, die künftig zur Überprüfung neuer Werte verwendet werden können. Beispiel: Ein Musterprofil einer Spalte für den US-amerikanischen Zip Code kann folgende reguläre Ausdrücke erstellen: \d{5}-\d{4}, \d{5} und \d{9}. Wenn Sie andere reguläre Ausdrücke erhalten, enthalten Ihre Daten wahrscheinlich ungültige oder falsch formatierte Werte.
Spaltenstatistikprofil Meldet Statistiken, z. B. Minimum, Maximum, Mittelwert und Standardabweichung für numerische Spalten sowie Mindest- und Höchstwerte für datetime Spalten.

Dieses Profil hilft Ihnen, Probleme bei den Daten zu identifizieren, z. B. Datumswerte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil einer Spalte mit historischen Daten und entdecken einen Maximalwert, der in der Zukunft liegt.
Verteilungsprofil für Spaltenwerte Meldet alle eindeutigen Werte in der ausgewählten Spalte sowie den Prozentsatz der Zeilen in der Tabelle, die jeder Wert repräsentiert. Kann auch Werte melden, die mehr als einen angegebenen Prozentsatz der Zeilen in der Tabelle darstellen.

Dieses Profil hilft Ihnen, Probleme mit den Daten zu identifizieren, z. B. eine falsche Anzahl eindeutiger Werte in einer Spalte. Beispiel: Sie erstellen ein Profil einer Spalte, die die US-amerikanischen Bundesstaaten enthalten soll, und entdecken mehr als 50 eindeutige Werte.

Die folgenden drei Profile analysieren einzelne Spalten oder Beziehungen zwischen Spalten und Tabellen.

Profile, die mehrere Spalten analysieren BESCHREIBUNG
Kandidatenschlüsselprofil Meldet, ob eine Spalte oder eine Gruppe von Spalten ein Schlüssel oder ein ungefährer Schlüssel für die ausgewählte Tabelle ist.

Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. doppelte Werte in einer potenziellen Schlüsselspalte.
Funktionales Abhängigkeitsprofil Meldet, in welchem Maß die Werte in einer Spalte (die abhängige Spalte) von den Werten in einer Spalte oder einer Gruppe von Spalten (der determinanten Spalte) abhängig sind.

Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil der Abhängigkeit zwischen einer Spalte, die US-amerikanische Zip Codes enthält, und einer Spalte mit US-amerikanischen Bundesstaaten. Die gleiche Postleitzahl sollte immer denselben Bundesstaat aufweisen, doch das Profil entdeckt Verstöße gegen dieses Abhängigkeitsverhältnis.
Wertinklusionsprofil Berechnet die Überschneidung in den Werten zwischen zwei Spalten oder Gruppen von Spalten. Dieses Profil kann bestimmen, ob eine Spalte oder eine Gruppe von Spalten geeignet ist, als Fremdschlüssel zwischen den ausgewählten Tabellen zu fungieren.

Dieses Profil hilft Ihnen auch, Probleme bei den Daten zu identifizieren, z. B. Werte, die nicht gültig sind. Beispiel: Sie erstellen ein Profil der Spalte ProductID einer Vertriebstabelle und stellen fest, dass die Spalte Werte enthält, die nicht in der Spalte ProductID der Produkttabelle enthalten sind.

Erforderliche Komponenten für ein gültiges Profil

Ein Profil ist nur gültig, wenn Sie Tabellen oder Spalten auswählen, die nicht leer sind, und die Spalten für das Profil gültige Datentypen enthalten.

Gültige Datentypen

Einige der verfügbaren Profile sind nur für bestimmte Datentypen sinnvoll. Beispielsweise ist das Berechnen eines Spaltenmusterprofils für eine Spalte, die numerische oder datetime Werte enthält, nicht aussagekräftig. Daher ist ein solches Profil nicht gültig.

Profil Gültige Datentypen*
Spaltenstatistikprofil Spalten des numerischen Typs oder des datetime Typs (keine mean und stddev für die datetime-Spalte)
ColumnNullRatioProfile Alle Spalten**
Verteilungsprofil für Spaltenwerte Spalten des Typs integer, char und datetime
Verteilungsprofil für Spaltenlänge Spalten vom char Typ
Spaltenmusterprofil Spalten vom char Typ
Kandidatenschlüsselprofil Spalten vom Typ integer, Typ char und Typ datetime
Funktionales Abhängigkeitsprofil Spalten des integer Typs, char Typs und datetime Typs
Inklusionsprofil Spalten des Typs integer, des Typs char und des Typs datetime

* In der vorherigen Tabelle mit gültigen Datentypen sind die integerchardatetimenumeric folgenden spezifischen Datentypen enthalten:

Ganzzahlige Typen umfassen bit, , tinyint, smallint, intund bigint.

Zeichentypen umfassen char, nchar, varchar und nvarchar,, beinhalten jedoch nicht varchar(max) und nvarchar(max).

Datums- und Uhrzeittypen umfassen datetime, smalldatetimeund timestamp.

Numerische Typen umfassen integer Typen (außer bit), money, , smallmoney, decimal, float, und numericreal.

** image, text, XML, udtund variant Typen werden nicht für Profile unterstützt, die nicht das Spalten-Null-Verhältnis-Profil sind.

Gültige Tabellen und Spalten

Wenn die Tabelle oder die Spalte leer ist, führt die Datenprofilerstellung die folgenden Aktionen aus:

  • Wenn die ausgewählte Tabelle oder die Sicht leer ist, berechnet der Datenprofilerstellungs-Task keine Profile.

  • Wenn alle Werte in der ausgewählten Spalte NULL sind, berechnet der Datenprofilerstellungs-Task nur das Profil für Spalten-NULL-Verhältnis. Der Task berechnet das Verteilungsprofil für Spaltenlänge, das Spaltenmusterprofil, das Spaltenstatistikprofil oder das Verteilungsprofil für Spaltenwerte nicht.

Funktion des Datenprofilerstellungs-Tasks

Der Datenprofilerstellungs-Task verfügt über die folgenden zweckmäßigen Konfigurationsoptionen:

  • Platzhalterspalten Beim Konfigurieren einer Profilanforderung akzeptiert der Task das Platzhalterzeichen (*) für einen Spaltennamen. Dies vereinfacht die Konfiguration und macht es leichter, die Eigenschaften unbekannter Daten zu ermitteln. Wenn der Task ausgeführt wird, erstellt er für jede Spalte, die über einen entsprechenden Datentyp verfügt, ein Profil.

  • Schnellprofil You can select Schnellprofil to configure the task quickly. Ein Schnellprofil erstellt ein Profil einer Tabelle oder einer Sicht mit allen Standardprofilen und Standardeinstellungen.

Verfügbare benutzerdefinierte Meldungen für den Datenprofilerstellungs-Task

In der folgenden Tabelle werden die benutzerdefinierten Protokolleinträge für den Datenprofilerstellungs-Task aufgelistet. Weitere Informationen finden Sie unter Integration Services (SSIS) Logging und Benutzerdefinierte Nachrichten für die Protokollierung.

Protokolleintrag BESCHREIBUNG
DataProfilingTaskTrace Stellt beschreibende Informationen zum Taskstatus zur Verfügung. Nachrichten beinhalten folgende Informationen:

Start der Anforderungsverarbeitung

Abfragestart

Ende der Abfrage

Beenden der Anforderungsverarbeitung

Ausgabe und zugehöriges Schema

Der Datenprofilerstellungs-Task gibt die ausgewählten Profile im XML-Format aus, das dem Schema DataProfile.xsd entsprechend strukturiert ist. Sie können angeben, ob diese XML-Ausgabe in einer Datei oder einer Paketvariablen gespeichert wird. Sie können dieses Schema online anzeigen unter https://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Auf der Webseite können Sie eine lokale Kopie des Schemas speichern. Anschließend können Sie die lokale Kopie des Schemas in Microsoft Visual Studio oder einem anderen Schema-Editor, in einem XML-Editor oder einem Texteditor wie Notepad anzeigen.

Dieses Schema für Datenqualitätsinformationen kann für Folgendes nützlich sein:

  • Austauschen von Datenqualitätsinformationen innerhalb und außerhalb von Organisationen.

  • Erstellen von benutzerdefinierten Tools, die mit Datenqualitätsinformationen arbeiten.

Der Zielnamespace wird im Schema als https://schemas.microsoft.com/sqlserver/2008/DataDebugger/ identifiziert.

Ausgabe im bedingten Workflow eines Pakets

Die Komponenten der Datenprofilerstellung umfassen keine integrierten Funktionen zur Implementierung bedingter Logik im Workflow des Integration Services -Pakets basierend auf der Ausgabe des Datenprofilerstellungs-Tasks. Sie können diese Logik, mit minimalem Programmieraufwand, problemlos in einem Skripttask hinzufügen. Mit diesem Code wird eine Xpath-Abfrage der XML-Ausgabe durchgeführt und das Ergebnis in einer Paketvariablen gespeichert. Die Rangfolgeneinschränkungen, mit denen der Skripttask mit nachfolgenden Tasks verbunden wird, können einen Ausdruck verwenden, um den Workflow zu bestimmen. Der Skripttask stellt beispielsweise fest, dass der Prozentsatz der NULL-Werte in einer Spalte einen bestimmten Schwellenwert überschreitet. Wenn diese Bedingung wahr ist, sollten Sie das Paket unterbrechen und das Problem beheben, bevor Sie fortfahren.

Konfiguration des Datenprofilerstellungs-Tasks

Sie konfigurieren den Datenprofilerstellungs-Task mit dem Editor für den Datenprofilerstellungs-Task. Der Editor hat zwei Seiten:

Seite Allgemein
Auf der Seite Allgemein geben Sie die Ausgabedatei oder die Variable an. Sie können auch Schnellprofil auswählen, um den Task schnell zu konfigurieren und Profile mit den Standardeinstellungen zu berechnen. Weitere Informationen finden Sie unter Schnellprofilformular für eine einzelne Tabelle (Datenprofilerstellungs-Task).

Seite Profilanforderungen
Auf der Seite Profilanforderungen geben Sie die Datenquelle an und wählen und konfigurieren die Datenprofile, die Sie berechnen möchten. Klicken Sie auf eines der folgenden Themen, um weitere Informationen zu den verschiedenen Profilen zu erhalten, die Sie konfigurieren können: