Freigeben über


Datenbereinigung

Die Datenbereinigung ist der Prozess der Analyse der Datenqualität in einer Datenquelle, das manuelle Akzeptieren/Ablehnen der Vorschläge durch das System, um Änderungen an den Daten vorzunehmen. Die Datenbereinigung in Data Quality Services (DQS) umfasst einen computergestützten Prozess, der analysiert, wie Daten den Kenntnissen in einer Wissensbasis entsprechen, und einen interaktiven Prozess, der es dem Data Steward ermöglicht, computergestützte Prozessergebnisse zu überprüfen und zu ändern, um sicherzustellen, dass die Datenbereinigung genau wie gewünscht erfolgt.

Der Data Steward kann auch die Datenbereinigung im Integration Services-Verpackungsprozess durchführen. In diesem Fall würde der Data Steward die DQS-Säuberungskomponente in Integration Services verwenden, die automatisch datenbereinigung mit einer vorhandenen Wissensbasis durchführt. Weitere Informationen finden Sie unter DQS-Säuberungstransformation.

Die Datenbereinigungsfunktion in DQS bietet die folgenden Vorteile:

  • Identifiziert unvollständige oder falsche Daten in Ihrer Datenquelle (Excel-Datei oder SQL Server-Datenbank), und korrigiert oder benachrichtigt Sie über die ungültigen Daten.

  • Bietet zweistufigen Prozess zum Bereinigen der Daten: computergestützte und interaktive Daten. Der computergestützte Prozess verwendet das Wissen in einer DQS-Wissensbasis, um die Daten automatisch zu verarbeiten und Ersetzungen/Korrekturen vorzuschlagen. Der nächste Schritt, interaktiv, ermöglicht es dem Datenverantwortlichen, die von der DQS während der computergestützten Reinigung vorgeschlagenen Änderungen zu genehmigen, abzulehnen oder zu ändern.

  • Standardisiert und erweitert Kundendaten mithilfe von Domänenwerten, Domänenregeln und Referenzdaten. Standardisieren Sie beispielsweise die Begriffsnutzung, indem Sie "St." in "Street" ändern, Daten erweitern, indem Sie fehlende Elemente ausfüllen, indem Sie "1 Microsoft way Redmond 98006" in "1 Microsoft Way, Redmond, WA 98006" ändern.

  • Bietet dem Benutzer eine einfache, intuitive und konsistente Assistentenoberfläche, um in den Daten zu navigieren und Fehler innerhalb einer sehr großen Datenmenge zu überprüfen.

Die folgende Abbildung zeigt, wie die Datenbereinigung in DQS erfolgt:

Datenbereinigungsprozess in DQS

Computergestützte Reinigung

Der DQS-Datenbereinigungsprozess wendet die Wissensbasis auf die zu bereinigenden Daten an und schlägt Änderungen an den Daten vor. Der Datenverantwortliche hat Zugriff auf jede vorgeschlagene Änderung, sodass er die Änderungen bewerten und korrigieren kann. Um die Datenbereinigung durchzuführen, geht der Data Steward wie folgt fort:

  1. Erstellen Sie ein Datenqualitätsprojekt, wählen Sie eine Wissensbasis aus, mit der Sie Ihre Quelldaten analysieren und bereinigen möchten, und wählen Sie die Bereinigungsaktivität aus. Mehrere Datenqualitätsprojekte können dieselbe Wissensbasis verwenden.

  2. Geben Sie die Datenbanktabelle/-ansicht oder eine Excel-Datei an, die die zu bereinigenden Quelldaten enthält. Die Datenbank oder die Excel-Datei kann dieselbe sein, die für die Wissensermittlung verwendet wurde, oder es kann sich um eine andere Datenbank oder Excel-Datei handeln.

    Hinweis

    Wenn Sie dieselbe Datenquelle für Wissensermittlungs- und Bereinigungsaktivitäten auswählen, werden die Daten nicht geändert. Es wird empfohlen, Wissensermittlungen für eine Beispieldaten auszuführen und ihre Quelldaten später anhand des Wissens zu bereinigen, das während der Wissensermittlungsaktivität erstellt wurde.

  3. Ordnen Sie die zu bereinigenden Datenfelder den entsprechenden Domänen/zusammengesetzten Domänen in der Wissensdatenbank zu. Wenn Sie ein Feld einer zusammengesetzten Domäne zuordnen, erfolgt die Zuordnung zwischen dem Feld und der zusammengesetzten Domäne und nicht mit den einzelnen Domänen in der zusammengesetzten Domäne. Außerdem erfolgt die Datenbereinigung für das zugeordnete Feld basierend auf den regeln, die für die zusammengesetzte Domäne angegeben sind, und nicht für die einzelnen Domänen in der zusammengesetzten Domäne. Weitere Informationen zu zusammengesetzten Domänen finden Sie unter DQS Knowledge Bases und Domains.

  4. Führen Sie den computergestützten Reinigungsprozess aus, indem Sie auf der Seite "Bereinigen" auf "Start" klicken.

Der Datenbereinigungsprozess findet die beste Übereinstimmung einer Dateninstanz mit bekannten Datendomänenwerten. Der Prozess wendet Datenqualitätswissen auf alle Quelldaten an, im Gegensatz zum Wissensermittlungsprozess, der auf einem Prozentsatz der Beispieldaten ausgeführt wird.

Der computergestützte Prozess zeigt Datenqualitätsinformationen im Data Quality Client an, die für den interaktiven Reinigungsprozess verwendet werden. Neben der Einhaltung der Syntaxfehlerregeln verwendet DQS auch Referenzdaten und erweiterte Algorithmen, um Daten mithilfe von Konfidenzniveau zu kategorisieren. Das Konfidenzniveau gibt den Umfang der Sicherheit der DQS für die Korrektur oder den Vorschlag an. Das Konfidenzniveau basiert auf den folgenden Schwellenwerten:

  • Ein Schwellenwert für die automatische Korrektur , über dem DQS eine Änderung vorschlagen und vornehmen wird, es sei denn, der Data Steward lehnt ihn ab. Sie können den Schwellenwert für die automatische Korrektur auf der Registerkarte " Allgemeine Einstellungen " im Konfigurationsbildschirm angeben. Weitere Informationen finden Sie unter "Konfigurieren von Schwellenwerten für Die Bereinigung und Übereinstimmung".

  • Ein Schwellenwert für automatische Vorschläge unter dem Schwellenwert für die automatische Korrektur, über dem DQS eine Änderung vorschlagen wird, und legt ihn fest, wenn der Datenverantwortliche ihn genehmigt. Sie können den Schwellenwert für automatische Vorschläge auf der Registerkarte " Allgemeine Einstellungen " im Konfigurationsbildschirm angeben. Weitere Informationen finden Sie unter "Konfigurieren von Schwellenwerten für Die Bereinigung und Übereinstimmung".

Jeder Wert, der einen Konfidenzwert unterhalb des Schwellenwerts für automatische Vorschläge aufweist, bleibt wie bei DQS, es sei denn, der Data Steward gibt eine Änderung an.

Interaktive Reinigung

Basierend auf dem computergestützten Reinigungsprozess liefert DQS den Datenverantwortlichen Informationen, die sie benötigen, um eine Entscheidung über die Änderung der Daten zu treffen. DQS kategorisiert die Daten unter den folgenden fünf Tabs:

  • Vorgeschlagen: Werte, für die DQS Vorschläge gefunden haben, die ein Konfidenzniveau höher als der Schwellenwert für automatische Vorschläge , aber niedriger als der Schwellenwert für die automatische Korrektur sind. Sie sollten diese Werte überprüfen und ggf. genehmigen oder ablehnen.

  • Neu: Gültige Werte, für die DQS nicht genügend Informationen (Vorschlag) enthält und daher keiner anderen Registerkarte zugeordnet werden kann. Darüber hinaus enthält diese Registerkarte auch Werte, die das Konfidenzniveau kleiner als der Schwellenwert für automatische Vorschläge haben, aber hoch genug, um als gültig markiert zu werden.

  • Ungültig: Werte, die in der Domäne in der Wissensdatenbank als ungültig markiert wurden, oder Werte, die eine Domänenregel oder Referenzdaten nicht bestanden haben. Diese Registerkarte enthält auch Werte, die vom Benutzer während des interaktiven Bereinigungsprozesses in einer der anderen vier Registerkarten abgelehnt werden.

  • Korrigiert: Werte, die während des automatisierten Reinigungsprozesses von DQS korrigiert werden, da DQS eine Korrektur für den Wert mit Konfidenzniveau oberhalb des Schwellenwerts für die automatische Korrektur gefunden hat. Diese Registerkarte enthält auch Werte, für die der Benutzer während der interaktiven Bereinigung einen korrekten Wert in der Spalte "Korrektur auf" angegeben und genehmigt hat, indem er in einer der anderen vier Registerkarten auf das Optionsfeld in der Spalte "Genehmigen" klickt.

  • Richtig: Werte, die richtig gefunden wurden. Beispielsweise entspricht der Wert einem Domänenwert. Bei Bedarf können Sie die DQS-Bereinigung überschreiben, indem Sie Werte unter dieser Registerkarte ablehnen oder ein alternatives Wort in der Spalte Korrektur zu angeben und dann in der Spalte Annehmen auf das Optionsfeld klicken. Diese Registerkarte enthält auch Werte, die vom Benutzer während der interaktiven Bereinigung genehmigt wurden, indem er/sie auf das Auswahlfeld in der Spalte Genehmigen in der Registerkarte Neu oder Ungültig klickt.

Hinweis

Auf den Registerkarten "Vorgeschlagen", "Korrigiert" und "Richtig" zeigt DQS den führenden Wert für eine Domäne in der Spalte "Korrigieren zu" für den entsprechenden Domänenwert an, falls zutreffend.

Der Data Steward verwendet den Data Quality Client, um die von DQS vorgeschlagenen Änderungen anzuzeigen und zu entscheiden, ob sie implementiert werden sollen oder nicht. Er kann überprüfen, ob die DQS-Werte richtig festgelegt wurden. Er oder sie kann überprüfen, ob bereits von DQS vorgenommene Änderungen mit hoher Wahrscheinlichkeit vorgenommen werden sollten. Er kann entscheiden, ob automatisch vorgeschlagene Änderungen genehmigt werden sollen. Und er oder sie kann Werte überprüfen, die nicht geändert wurden, für den Fall, dass sie eine Änderung vornehmen möchten, die im computergestützten Prozess nicht auffindbar war.

DQS führt alle Änderungen zusammen, die der Datenverantwortliche mit den Ergebnissen der computergestützten Datenbereinigung vorgenommen hat. Diese Änderungen bleiben beim Projekt erhalten; Sie werden jedoch nicht zur Wissensbasis hinzugefügt. Während der Datenbereinigung ist die zugeordnete Wissensdatenbank schreibgeschützt.

Wenn der Datenbereinigungsprozess abgeschlossen ist, können Sie die verarbeiteten Daten in eine neue Tabelle in einer SQL Server-Datenbank, .csv Datei oder Excel-Datei exportieren. Die Quelldaten, auf denen die Reinigung durchgeführt wird, werden in ihrem ursprünglichen Zustand beibehalten. Der Data Steward kann die separaten bereinigten Daten verwenden, um die tatsächlichen Quelldaten zu korrigieren.

Die folgende Abbildung zeigt, wie die Datenbereinigung mithilfe der Datenqualitätsclientanwendung erfolgt:

Datenbereinigung im Datenqualitäts-Client

Führende Wertkorrektur

Führende Wertkorrektur gilt für Domänenwerte, die Synonyme aufweisen, und der Benutzer möchte einen der Synonymwerte als führenden Wert anstelle anderer für die konsistente Darstellung des Werts verwenden. Beispielsweise sind "New York", "NYC" und "Big Apple" Synonyme, und der Benutzer möchte "New York" als führenden Wert anstelle von "NYC" und "Big Apple" verwenden. DQS unterstützt wesentliche Wertkorrekturen während des Reinigungsprozesses, um Ihre Daten zu standardisieren. Die Korrektur des führenden Wertes erfolgt nur, wenn der Bereich dafür aktiviert wurde, als er erstellt wurde. Standardmäßig sind alle Domänen für führende Wertkorrekturen aktiviert, es sei denn, Sie haben das Kontrollkästchen "Führende Werte verwenden " beim Erstellen einer Domäne deaktiviert. Weitere Informationen zu diesem Kontrollkästchen finden Sie unter "Domäneneigenschaften festlegen".

Standardisierung bereinigter Daten

Sie können auswählen, ob die bereinigten Daten im standardisierten Format exportiert werden sollen, basierend auf dem definierten Ausgabeformat für Domänen. Beim Erstellen einer Domäne können Sie die Formatierung auswählen, die angewendet wird, wenn die Datenwerte in der Domäne ausgegeben werden. Weitere Informationen zum Angeben von Ausgabeformaten für eine Domäne finden Sie in der Liste "Formatausgabe" in " Domäneneigenschaften festlegen".

Beim Exportieren der bereinigten Daten auf der Seite " Exportieren " im Assistenten für die Datenqualität der Bereinigung geben Sie an, ob die bereinigten Daten im standardisierten Format exportiert werden sollen, indem Sie das Kontrollkästchen " Ausgabe standardisieren " aktivieren. Standardmäßig werden die bereinigten Daten im standardisierten Format exportiert, d. h. das Kontrollkästchen ist aktiviert. Weitere Informationen zum Exportieren der bereinigten Daten finden Sie unter Cleanse Data Using DQS (Internal) Knowledge.

Vorgangsbeschreibung Thema
Beschreibt, wie Schwellenwerte für die Bereinigungsaktivität konfiguriert werden. Konfigurieren von Schwellenwerten für Bereinigung und Abgleich
Beschreibt, wie Daten mithilfe von in DQS integrierten Kenntnissen bereinigt werden. Bereinigen von Daten mit (internem) DQS-Wissen
Beschreibt, wie Daten mithilfe von Kenntnissen aus dem Referenzdatendienst bereinigt werden. Daten unter Verwendung von Referenzdaten und externem Wissen bereinigen
Beschreibt, wie eine zusammengesetzte Domäne bereinigt wird. Daten in einer zusammengesetzten Domäne bereinigen

Siehe auch

Data Quality Projects (DQS)
Datenabgleich