Freigeben über


Bereinigen von Daten in einer Verbunddomäne

Dieses Thema enthält Informationen zur Reinigung zusammengesetzter Domänen in Data Quality Services (DQS). Eine zusammengesetzte Domäne besteht aus zwei oder mehr einzelnen Domänen und ist einem Datenfeld zugeordnet, das aus mehreren verwandten Ausdrücken besteht. Die einzelnen Domänen in einer zusammengesetzten Domäne müssen über einen gemeinsamen Wissensbereich verfügen. Ausführliche Informationen zu zusammengesetzten Domänen finden Sie unter Managing a Composite Domain.

Zuordnen einer zusammengesetzten Domäne zu den Quelldaten

Es gibt zwei Möglichkeiten, wie Sie Ihre Quelldaten einer zusammengesetzten Domäne zuordnen können:

  • Die Quelldaten sind ein einzelnes Feld (d. h. vollständiger Name), das einer zusammengesetzten Domäne zugeordnet ist.

    • Wenn die zusammengesetzte Domäne einem Referenzdatendienst zugeordnet ist, werden die Quelldaten zur Korrektur und Analyse an den Referenzdatendienst gesendet.

    • Wenn die zusammengesetzte Domäne keinem Referenzdatendienst zugeordnet ist, wird basierend auf der Analysemethode geparst, die für die zusammengesetzte Domäne definiert ist. Weitere Informationen zum Angeben einer Analysemethode für zusammengesetzte Domänen finden Sie unter Create a Composite Domain

  • Die Quelldaten bestehen aus mehreren Feldern (z. B. Vorname, Vorname und Nachname), die einzelnen Domänen innerhalb einer zusammengesetzten Domäne zugeordnet sind.

Ein Beispiel zum Zuordnen zusammengesetzter Domänen zu Quelldaten finden Sie unter Anfügen einer Domäne oder einer zusammengesetzten Domäne an Referenzdaten.

Datenkorrektur mithilfe endgültiger domänenübergreifender Regeln

Domänenübergreifende Regeln in zusammengesetzter Domäne ermöglichen es Ihnen, Regeln zu erstellen, die die Beziehung zwischen einzelnen Domänen in einer zusammengesetzten Domäne angeben. Domänenübergreifende Regeln werden berücksichtigt, wenn Sie die Bereinigungsaktivität für Ihre Quelldaten mit zusammengesetzten Domänen ausführen. Abgesehen davon, dass nur über die Gültigkeit einer domänenübergreifenden Regel informiert wird, korrigiert die endgültige domänenübergreifende Regel Then, Value is equal to, auch die Daten während der Datenbereinigungsaktivität.

Betrachten Sie das folgende Beispiel: Es gibt eine zusammengesetzte Domäne, "Product", mit drei einzelnen Domänen: "ProductName", "CompanyName" und "ProductVersion". Erstellen Sie die folgende endgültige domänenübergreifende Regel:

WENN die Domäne 'CompanyName' den Wert Microsoft enthält und der Wert der Domäne 'ProductName' gleich Office ist und der Wert 'ProductVersion' gleich 2010 ist, DANN ist der Wert der Domäne 'ProductName' gleich Microsoft Office 2010.

Wenn diese domänenübergreifende Regel ausgeführt wird, werden die Quelldaten (ProductName) nach der Bereinigungsaktivität wie folgt korrigiert:

Ursprungsdaten

Produktname Firmenname Produktversion
Büro Microsoft Inc. 2010

Ausgabedaten

Produktname Firmenname Produktversion
Microsoft Office 2010 Microsoft Inc. 2010

Wenn Sie die endgültige Then domänenübergreifende Regel testen, ist der Wert gleich, enthält das Dialogfeld Test Composite Domain Rule eine neue Spalte, "Correct To", in der die richtigen Daten angezeigt werden. In einem Bereinigungsprojekt für Datenqualität ändert diese endgültige domänenübergreifende Regel die Daten mit 100% Konfidenz, und in der Spalte Grund wird die folgende Meldung angezeigt: Korrigiert durch Regel "<Domänenübergreifender Regelname>". Weitere Informationen zu domänenübergreifenden Regeln finden Sie unter Erstellen einer domänenübergreifenden Regel.

Hinweis

Die endgültige domänenübergreifende Regel funktioniert nicht für zusammengesetzte Domänen, die an den Referenzdatendienst angefügt sind.

Datenprofilerstellung für zusammengesetzte Domänen

Die DQS-Profilerstellung bietet zwei Dimensionen der Datenqualität: Vollständigkeit (Umfang, in dem Daten vorhanden sind) und Genauigkeit (umfang, in dem Daten für die beabsichtigte Verwendung verwendet werden können) während der Reinigung. Profilerstellung stellt möglicherweise keine zuverlässige Vollständigkeitsstatistik für zusammengesetzte Domänen bereit. Wenn Sie Vollständigkeitsstatistiken benötigen, verwenden Sie einzelne Domänen anstelle zusammengesetzter Domänen. Wenn Sie zusammengesetzte Domänen verwenden möchten, können Sie eine Wissensbasis mit einzelnen Domänen für die Profilerstellung erstellen, die Vollständigkeit bestimmen und eine andere Domäne mit einer zusammengesetzten Domäne für die Reinigungsaktivität erstellen. Beispielsweise könnte das Profiling eine Vollständigkeit von 95% für Adressdatensätze mithilfe einer kombinierten Domäne anzeigen, aber es könnte für eine der Spalten, wie etwa die Postleitzahlspalte, ein wesentlich höheres Maß an Unvollständigkeit geben. In diesem Beispiel können Sie die Vollständigkeit der Postleitzahlspalte mit einer einzigen Domäne messen.

Profilerstellung bietet wahrscheinlich zuverlässige Genauigkeitsstatistiken für zusammengesetzte Domänen, da Sie die Genauigkeit für mehrere Spalten zusammen messen können. Der Wert dieser Daten befindet sich in der zusammengesetzten Aggregation, daher können Sie die Genauigkeit mit einer zusammengesetzten Domäne messen.

Ausführliche Informationen zur Datenprofilerstellung während der Reinigungsaktivität finden Sie unter Profiler Statistics in Cleanse Data Using DQS (Internal) Knowledge.