Freigeben über


Ausführen eines Abgleichsprojekts

In diesem Thema wird beschrieben, wie Sie den Datenabgleich in Data Quality Services (DQS) durchführen. Der Abgleichsprozess identifiziert Cluster von übereinstimmenden Datensätzen basierend auf Übereinstimmungsregeln in der Übereinstimmungsrichtlinie, bestimmt einen Datensatz aus jedem Cluster als Survivor basierend auf einer Survivhip-Regel und exportiert die Ergebnisse. DQS führt den Abgleichprozess, auch als Deduplizierung bezeichnet, in einem computergestützten Verfahren durch. Dabei erstellen Sie interaktiv Übereinstimmungsregeln und wählen die Überlebensregel aus mehreren Optionen aus, sodass Sie den Abgleichprozess steuern können.

Der Abgleich erfolgt in drei Phasen: ein Zuordnungsprozess, bei dem Sie die Datenquelle identifizieren und Domänen der Datenquelle zuordnen, einen Abgleichsprozess, in dem Sie die Abgleichsanalyse ausführen, sowie einen Überlebenden- und Exportprozess, in dem Sie die Überlebendenregel festlegen und die übereinstimmenden Ergebnisse exportieren. Jeder dieser Prozesse wird auf einer separaten Seite des Assistenten für Abgleichsaktivitäten ausgeführt, sodass Sie zu verschiedenen Seiten wechseln, den Prozess erneut ausführen und einen bestimmten Abgleichsprozess abschließen und dann zur gleichen Phase des Prozesses zurückkehren können. DQS bietet Ihnen Statistiken zu den Quelldaten, den Abgleichsregeln und den übereinstimmenden Ergebnissen, mit denen Sie fundierte Entscheidungen zum Abgleich treffen und den Abgleichsprozess verfeinern können.

Sie müssen sich auf den Abgleich vorbereiten, indem Sie eine übereinstimmende Richtlinie mit einer oder mehreren Abgleichsregeln erstellen und die Richtlinie für Beispieldaten ausführen. Der Prozess für das Abgleichprojekt ist vom Abgleichrichtlinienprozess getrennt, und eine Wissensbasis wird nicht mit Abgleichwissen gefüllt, das aus dem Abgleichprojekt gewonnen wird. Weitere Informationen zum Erstellen einer Abgleichsrichtlinie finden Sie unter Erstellen einer Abgleichsrichtlinie.

Bevor Sie beginnen

Voraussetzungen

  • Sie müssen eine Wissensbasis mit einer übereinstimmenden Richtlinie erstellt haben, die aus einer oder mehreren Übereinstimmenden Regeln besteht.

  • Microsoft Excel muss auf dem Clientcomputer für Datenqualität installiert sein, wenn sich die zuzuordnenden Quelldaten in einer Excel-Datei befinden. Andernfalls können Sie die Excel-Datei in der Zuordnungsphase nicht auswählen. Die von Microsoft Excel erstellten Dateien können eine Erweiterung von .xlsx, .xlsoder .csvhaben. Wenn die 64-Bit-Version von Excel verwendet wird, werden nur Excel 2003-Dateien (.xls) unterstützt; Excel 2007- oder 2010-Dateien (.xlsx) werden nicht unterstützt. Wenn Sie 64-Bit-Version von Excel 2007 oder 2010 verwenden, speichern Sie die Datei als .xls Datei oder als .csv-Datei, oder installieren Sie stattdessen eine 32-Bit-Version von Excel.

Sicherheit

Erlaubnisse

Sie müssen über die Rollen dqs_kb_editor und dqs_administrator in der Datenbank DQS_MAIN verfügen, um ein Abgleichsprojekt auszuführen.

Erster Schritt: Starten eines übereinstimmenden Projekts

Sie führen die übereinstimmende Aktivität in einem Datenqualitätsprojekt aus, das Sie in der DQS-Clientanwendung erstellen.

  1. Starten Sie Data Quality Client. Informationen dazu finden Sie unter Ausführen der Data Quality-Client-Anwendung.

  2. Klicken Sie auf der Startseite des Datenqualitätsclients auf "Neues Datenqualitätsprojekt ", um den Abgleich in einem neuen Datenqualitätsprojekt durchzuführen. Geben Sie einen Namen für das Datenqualitätsprojekt ein, geben Sie eine Beschreibung ein, und wählen Sie die Wissensbasis aus, die Sie für den Abgleich in der Use Knowledge Base verwenden möchten. Klicken Sie auf "Abgleichen" für die Aktivität. Klicken Sie auf Weiter, um mit der Zuordnungsphase fortzufahren.

  3. Klicken Sie auf " Datenqualitätsprojekt öffnen ", um den Abgleich in einem vorhandenen Datenqualitätsprojekt durchzuführen. Wählen Sie das Projekt aus, und klicken Sie dann auf "Weiter". (Alternativ können Sie unter "Zuletzt verwendete Datenqualitätsprojekt" auf ein Projekt klicken.) Wenn Sie ein übereinstimmende Projekt öffnen, das geschlossen wurde, fahren Sie mit der Phase fort, in der die übereinstimmende Projektaktivität geschlossen wurde (wie in der Spalte "Status" in der Projekttabelle oder im Projektnamen unter "Zuletzt verwendetes Datenqualitätsprojekt" angegeben). Wenn Sie ein übereinstimmende Projekt öffnen, das abgeschlossen ist, wechseln Sie zur Seite " Exportieren " (und Sie können nicht zu vorherigen Bildschirmen zurückkehren).

Zuordnungsphase

In der Zuordnungsphase identifizieren Sie die Quelle der Daten, für die Sie die Abgleichsanalyse ausführen, und Ordnen Sie Quellspalten Domänen zu, um die Domänen für die übereinstimmende Aktivität verfügbar zu machen.

  1. Lassen Sie auf der Seite Zuordnung die Datenquelle als SQL Server bestehen, wählen Sie die Datenbank aus, auf der Sie den Abgleich durchführen möchten, und wählen Sie dann die Tabelle aus. Die Quelldatenbank muss in derselben SQL Server-Instanz wie der DQS-Server vorhanden sein. Andernfalls wird sie nicht in der Dropdownliste angezeigt.

  2. Wenn Sie übereinstimmungen mit den Daten in einer Excel-Tabelle ausführen möchten, wählen Sie "Excel-Datei für Datenquelle" aus, klicken Sie auf "Durchsuchen ", und wählen Sie die Excel-Datei aus, und lassen Sie bei Bedarf die erste Zeile als Kopfzeile auswählen. Wählen Sie im Arbeitsblatt das Arbeitsblatt in der Excel-Datei aus, das die Quelle der Daten ist. Excel muss auf dem Clientcomputer für Datenqualität installiert sein, um eine Excel-Datei auszuwählen. Wenn Excel nicht auf dem Clientcomputer für Datenqualität installiert ist, ist die Schaltfläche " Durchsuchen " nicht verfügbar, und Sie werden unter diesem Textfeld benachrichtigt, dass Excel nicht installiert ist.

  3. Wählen Sie unter "Zuordnungen" ein Feld in der Datenquelle für " Quellspalte" und dann die entsprechende Domäne aus. Wiederholen Sie diesen Vorgang für alle Domänen, die Sie im Abgleichsprozess verwenden. Jede Domäne, die in der übereinstimmenden Richtlinie definiert ist, muss der entsprechenden Quellspalte zugeordnet werden. Auf der Seite "Karte" werden die Domänen angezeigt, die in der Abgleichrichtlinie definiert wurden, sowie die dazugehörigen Regeln im rechten Bereich.

    Hinweis

    Sie können Ihre Quelldaten nur dann einer DQS-Domäne zuordnen, wenn der Quelldatentyp in DQS unterstützt wird und mit dem DQS-Domänendatentyp übereinstimmt. Informationen zu unterstützten Datentypen in DQS finden Sie unter Unterstützte SQL Server- und SSIS-Datentypen für DQS-Domänen.

  4. Klicken Sie auf das Plus-Steuerelement (+), um der Zuordnungstabelle oder dem Minus-Steuerelement (-) eine Zeile hinzuzufügen, um eine Zeile zu entfernen.

  5. Klicken Sie auf "Datenquelle in der Vorschau" , um die Daten in der ausgewählten SQL Server-Tabelle oder in der ausgewählten Ansicht oder dem ausgewählten Excel-Arbeitsblatt anzuzeigen.

  6. Klicken Sie auf "Zusammengesetzte Domänen anzeigen/auswählen ", um eine Liste der in der Knowledge Base verfügbaren zusammengesetzten Domänen anzuzeigen, und wählen Sie entsprechend der Zuordnung aus.

  7. Klicken Sie auf "Weiter", um mit der Abgleichsstufe fortzufahren.

    Hinweis

    Klicken Sie auf "Schließen ", um die Phase des übereinstimmenden Projekts zu speichern, und kehren Sie zur DQS-Startseite zurück. Wenn Sie dieses Projekt das nächste Mal öffnen, beginnt es mit derselben Phase. Klicken Sie auf "Abbrechen ", um die übereinstimmende Aktivität zu beenden, Ihre Arbeit zu verlieren und zur DQS-Startseite zurückzukehren.

Abgleichsphase

In dieser Phase führen Sie einen computergestützten Abgleichsprozess durch, der zeigt, wie viele Übereinstimmungen in den Quelldaten vorhanden sind, basierend auf den Abgleichsregeln. Dieser Prozess generiert eine übereinstimmende Ergebnistabelle, in der die Cluster angezeigt werden, die DQS identifiziert hat, jeder Datensatz im Cluster mit seiner Datensatz-ID und dem entsprechenden Bewertungsergebnis und dem ersten führenden Datensatz für den Cluster. Der führende Datensatz im Cluster wird zufällig ausgewählt. Sie bestimmen den überlebenden Datensatz, indem Sie die Survivorship-Regel auf der Exportseite auswählen, wenn Sie das Matching-Projekt ausführen. Jede zusätzliche Zeile in einem Cluster gilt als Treffer; die entsprechende Bewertung (im Vergleich zum führenden Datensatz) wird in der Ergebnistabelle bereitgestellt. Die Clusternummer entspricht der Datensatz-ID für den führenden Datensatz im Cluster.

In den übereinstimmenden Ergebnissen können Sie nach den gewünschten Daten filtern und Übereinstimmungen ablehnen, die Sie nicht benötigen. Sie können Profilerstellungsdaten für den Abgleichsprozess als Ganzes anzeigen, Spezifisches zu den angewendeten Abgleichsregeln sowie Statistiken zu den übereinstimmenden Ergebnissen als Ganzes anzeigen. Der Abgleichsprozess kann überlappende oder nicht überlappende Cluster identifizieren und bei mehrfacher Ausführung für daten ausgeführt werden, die neu aus der Quelle kopiert und neu indiziert wurden, oder auf vorherigen Daten.

  1. Wählen Sie auf der Seite "Abgleichen" die Option "Überlappende Cluster " aus der Dropdownliste aus, um die Pivotdatensätze und die folgenden Datensätze für alle Cluster anzuzeigen, wenn der Abgleich ausgeführt wird, auch wenn Gruppen von Clustern Datensätze gemeinsam haben. Wählen Sie "Nicht überlappende Cluster " aus, um Cluster anzuzeigen, die Datensätze gemeinsam als einzelner Cluster aufweisen, wenn der Abgleich ausgeführt wird.

  2. Klicken Sie auf "Datenquelle erneut laden" (Standard), um Daten aus der Datenquelle in die Stagingtabelle zu kopieren und erneut zu indizieren, wenn Sie das entsprechende Projekt ausführen. Klicken Sie auf "Ausführen" für vorherige Daten , um ein übereinstimmendes Projekt auszuführen, ohne die Daten in die Stagingtabelle zu kopieren und die Daten erneut zu indizieren. Die Ausführung auf vorherigen Daten ist für die erste Ausführung des Matching-Projekts deaktiviert, oder wenn Sie die Zuordnung auf der Map-Seite ändern und dann im folgenden Popup auf 'Ja' klicken. In beiden Fällen müssen Sie den Index erneut indizieren. Es ist nicht erforderlich, eine erneute Indizierung durchzuführen, wenn sich das übereinstimmende Projekt nicht geändert hat. Das Ausführen von vorherigen Daten kann zur Leistung beitragen.

  3. Klicken Sie auf "Start ", um übereinstimmungen für die ausgewählte Datenquelle auszuführen.

  4. Klicken Sie auf "Beenden ", wenn Sie das übereinstimmende Projekt beenden und die Ergebnisse verwerfen möchten.

  5. Überprüfen Sie nach Abschluss des Abgleichsvorgangs, ob die Cluster in der Tabelle " Übereinstimmende Ergebnisse " geeignet sind, und zeigen Sie die Statistiken auf den Registerkarten "Profiler " und " Übereinstimmende Ergebnisse " an, um sicherzustellen, dass Sie die benötigten Ergebnisse erzielen. Zeigen Sie die übereinstimmenden Datensätze an, indem Sie Übereinstimmend für Filter auswählen, oder zeigen Sie nicht übereinstimmende Datensätze an, indem Sie Nicht übereinstimmend auswählen.

  6. Wenn in der Übereinstimmungsrichtlinie mehrere Übereinstimmungsregeln vorhanden sind, klicken Sie auf die Registerkarte " Übereinstimmende Regeln ", um das Symbol für jede Regel zu identifizieren, und überprüfen Sie dann, welche Regel einen Datensatz als Übereinstimmung identifiziert hat, indem Sie die Regel in der Spalte " Regel " der Tabelle " Übereinstimmende Ergebnisse " identifizieren.

  7. Wenn Sie einen Datensatz, der kein Pivot ist, in der Tabelle auswählen und auf das Symbol "Details anzeigen" klicken (oder den Datensatz doppelklicken), zeigt DQS ein Popup namens Details der Übereinstimmungspunktzahl an, das den doppelt angeklickten Datensatz und seinen Pivot-Datensatz (sowie die Werte in allen deren Feldern), die Punktzahl zwischen ihnen, und eine detaillierte Aufschlüsselung der Beiträge zur Übereinstimmungspunktzahl jedes Feldes anzeigt. Beim Doppelklicken auf einen Pivotdatensatz wird das Popup nicht angezeigt.

  8. Klicken Sie auf das Symbol "Alle reduzieren ", um die datensätze zu reduzieren, die in der Tabelle " Übereinstimmende Ergebnisse " angezeigt werden, um nur pivot-Datensatz und nicht die doppelten Datensätze einzuschließen. Klicken Sie auf "Alle erweitern", um die datensätze zu erweitern, die in der Tabelle "Übereinstimmende Ergebnisse" angezeigt werden, um alle doppelten Datensätze einzuschließen.

  9. Wenn Sie einen Datensatz aus den übereinstimmenden Ergebnissen ablehnen möchten, klicken Sie auf das Kontrollkästchen "Abgelehnt" für den Datensatz.

  10. Um den Mindestabgleichswert zu ändern, der die Übereinstimmungsebene bestimmt, die ein Datensatz anzeigen muss, wählen Sie das Symbol "Min. Vergleichsbewertung " oberhalb der rechten Seite der Tabelle aus, und geben Sie eine höhere Zahl ein. Der minimale Übereinstimmungsgrad ist standardmäßig auf 80% festgelegt. Klicken Sie auf "Aktualisieren ", um den Inhalt der Tabelle zu ändern.

  11. Nach Abschluss der Analyse wird die Schaltfläche " Start " in eine Schaltfläche " Neustart " umgewandelt. Klicken Sie auf "Neu starten ", um das Analyseprojekt erneut auszuführen. Die Ergebnisse aus der vorherigen Analyse wurden jedoch noch nicht gespeichert, sodass durch Klicken auf "Neu starten " die vorherigen Daten verloren gehen. Klicken Sie zum Fortfahren im Popup auf "Ja ". Wenn die Analyse ausgeführt wird, verlassen Sie die Seite nicht, oder der Analyseprozess wird beendet.

  12. Klicken Sie auf "Weiter" , um mit der Überlebenden- und Exportphase fortzufahren.

Überlebensfähigkeit und Exportstufe

Im Überlebensprozess bestimmt Data Quality Services einen überlebenden Datensatz für jeden Cluster, der die anderen Datensätze ersetzt, die diesem Cluster entsprechen. Anschließend werden die Abgleichs- und/oder Überlebensdaten in eine Tabelle in der SQL Server-Datenbank, eine .csv-Datei oder eine Excel-Datei exportiert.

Überlebensstatus ist optional. Sie können die Ergebnisse exportieren, ohne das Überlebensregel auszuführen. In diesem Fall würde DQS den Pivot-Datensatz verwenden, der in der Matching-Analyse festgelegt wurde. Wenn zwei oder mehr Datensätze in einem Cluster der Survivorship-Regel entsprechen, wählt der Survivorship-Prozess die Datensatz-ID mit dem niedrigsten Wert aus den widersprüchlichen Datensätzen als den Überlebenden aus. Sie können Überlebende mithilfe verschiedener Überlebendenregeln in verschiedene Dateien oder Tabellen exportieren.

  1. Wählen Sie auf der Seite "Exportieren " das Ziel aus, in das Sie die übereinstimmenden Daten in den Zieltyp exportieren möchten: SQL Server, CSV-Datei oder Excel-Datei.

    Von Bedeutung

    Wenn Sie eine 64-Bit-Version von Excel verwenden, können Sie die übereinstimmenden Daten nicht in eine Excel-Datei exportieren. Sie können nur in eine SQL Server-Datenbank oder in eine .csv Datei exportieren.

  2. Wenn Sie SQL Server für den Zieltyp ausgewählt haben, wählen Sie die Datenbank aus, in die die Ergebnisse im Datenbanknamen exportiert werden sollen.

    Von Bedeutung

    Die Zieldatenbank muss in derselben SQL Server-Instanz wie der DQS-Server vorhanden sein. Andernfalls wird sie nicht in der Dropdownliste angezeigt.

  3. Aktivieren Sie das Kontrollkästchen für übereinstimmende Ergebnisse , um übereinstimmende Ergebnisse (siehe oben eine Erläuterung) in die angegebene Tabelle in einer SQL Server-Datenbank oder in die angegebene .csv- oder Excel-Datei zu exportieren. Aktivieren Sie das Kontrollkästchen für Survivorship-Ergebnisse, um Überlebensdauerergebnisse (siehe oben für eine Erläuterung) in die angegebene Tabelle in einer SQL Server-Datenbank oder in die angegebene .csv- oder Excel-Datei zu exportieren.

    Für übereinstimmende Ergebnisse wird Folgendes exportiert:

    • Eine Liste von Clustern und den übereinstimmenen Datensätzen in jedem Cluster, einschließlich des Regelnamens und der Bewertung. Der Pivotdatensatz wird als "Pivot" markiert. Die Cluster werden zuerst in der Exportliste angezeigt.

    • Eine Liste der nicht übereinstimmende Datensätze mit "NULL" in den Spalten "Score" und "Rule Name". Diese Datensätze werden nach den Clustern an die Exportliste angefügt.

    Folgende Daten werden für die Ergebnisse zur Überlebensrate exportiert:

    • Eine Liste der Überlebendendatensätze, die durch den Überlebendenhip-Prozess nach der Überlebensregel bestimmt werden. Diese Datensätze werden zuerst in der Exportliste angezeigt.

    • Eine Liste der nicht übereinstimmende Datensätze, die nicht in den Clustern übereinstimmender Datensätze enthalten sind. Diese Datensätze werden nach den Überlebenden-Ergebnissen angefügt.

  4. Wenn Sie SQL Server für zieltyp ausgewählt haben, geben Sie den Namen der Tabellen ein, in die Sie die Ergebnisse in den Tabellennamen exportieren möchten. Wenn Sie sowohl übereinstimmende Ergebnisse als auch Survivhip-Ergebnisse exportieren, müssen die Zieltabellen unterschiedliche Namen aufweisen, die für die Datenbank eindeutig sind.

  5. Wenn Sie die CSV-Datei für den Zieltyp ausgewählt haben, geben Sie die Datei und den Pfad für die CSV-Datei ein, in die Sie im CSV-Dateinamen exportieren möchten.

  6. Wenn Sie die Excel-Datei für den Zieltyp ausgewählt haben, geben Sie die Datei und den Pfad für die Excel-Datei ein, in die Sie in den Excel-Dateinamen exportieren möchten. Sie können nicht in eine Excel-Datei exportieren, wenn Sie eine 64-Bit-Version von Excel verwenden.

  7. Wählen Sie die Überlebensregel wie folgt aus:

    • Wählen Sie pivot-Datensatz (standard) aus, um den überlebenden Datensatz als anfänglichen Pivotdatensatz zu identifizieren, der willkürlich von DQS ausgewählt wurde.

    • Wählen Sie den vollständigsten und längsten Datensatz aus, um den überlebenden Datensatz als die mit der größten Anzahl ausgefüllter Felder zu identifizieren, und weist die größte Anzahl von Begriffen in jedem Feld auf. Alle Quellfelder werden überprüft, auch diejenigen Felder, die keiner Domäne auf der Seite "Karte " zugeordnet wurden.

    • Wählen Sie den vollständigsten Datensatz aus, um den überlebenden Datensatz als die mit der größten Anzahl gefüllter Felder zu identifizieren. Ein ausgefülltes Feld enthält mindestens einen Wert (Zeichenfolge, numerisch oder beides). Alle Quellfelder werden überprüft, auch diejenigen Felder, die keiner Domäne auf der Seite "Karte" zugeordnet wurden. Ein ausgefülltes Feld enthält mindestens einen Wert (Zeichenfolge, numerisch oder beides).

    • Wählen Sie "Längster Datensatz " aus, um den überlebenden Datensatz als das Datensatz mit der größten Anzahl von Begriffen in den Quellfeldern zu identifizieren. Um die Länge jedes Datensatzes zu ermitteln, überprüft DQS die Länge der Begriffe in allen Quellfeldern, auch diejenigen Felder, die keiner Domäne auf der Seite "Karte " zugeordnet wurden.

  8. Zeigen Sie die Statistiken auf der Registerkarte "Profiler " an, um sicherzustellen, dass Sie die benötigten Ergebnisse erzielen.

  9. Klicken Sie auf "Exportieren ", um die Ergebnisse zu exportieren. Dadurch wird ein Dialogfeld für den übereinstimmenden Export angezeigt, in dem der Fortschritt und dann die Ergebnisse des Exports angezeigt werden.

    • Wenn Sie SQL Server als Datenziel ausgewählt haben, wird in der ausgewählten Datenbank eine neue Tabelle mit dem angegebenen Namen erstellt.

    • Wenn Sie die CSV-Datei als Datenziel ausgewählt haben, wird eine .csv Datei am Speicherort auf dem Computer für den Datenqualitätsserver mit dem Dateinamen erstellt, den Sie weiter oben im Feld "CSV-Dateiname " angegeben haben.

    • Wenn Sie Excel-Datei als Datenziel ausgewählt haben, wird eine .xlsx Datei am Speicherort auf dem Datenqualitätsservercomputer mit dem Dateinamen erstellt, den Sie weiter oben im Excel-Dateinamenfeld angegeben haben.

  10. Vergewissern Sie sich, dass der Export erfolgreich abgeschlossen wurde, und klicken Sie dann auf "Schließen".

  11. Klicken Sie auf "Fertig stellen ", um das entsprechende Projekt abzuschließen.

    Hinweis

    Wenn Sie ein passendes Projekt abgeschlossen haben und es dann erneut verwenden, wird die zum Zeitpunkt der Veröffentlichung vorhandene Wissensbasis genutzt. Es werden keine Änderungen verwendet, die Sie an der Wissensbasis vorgenommen haben, seit Sie das Projekt abgeschlossen haben. Um diese Änderungen zu verwenden oder eine neue Wissensbasis zu verwenden, müssen Sie ein neues übereinstimmende Projekt erstellen. Wenn Sie jedoch ein passendes Projekt erstellt, aber nicht abgeschlossen haben, werden alle Änderungen, die Sie in der übereinstimmenden Richtlinie veröffentlicht haben, verwendet, wenn Sie den Abgleich im Projekt ausführen.

Nachverfolgung: Nach dem Ausführen eines übereinstimmenden Projekts

Nachdem Sie ein übereinstimmende Projekt ausgeführt haben, können Sie die Übereinstimmende Richtlinie in der Wissensbasis ändern und ein weiteres übereinstimmende Projekt basierend auf der aktualisierten Abgleichsrichtlinie erstellen und ausführen. Weitere Informationen finden Sie unter Erstellen einer übereinstimmenden Richtlinie.

Registerkarten "Profiler" und "Ergebnisse"

Die Registerkarten "Profiler" und "Ergebnisse" enthalten Statistiken für den Abgleichsprozess.

Registerkarte "Profiler"

Klicken Sie auf die Registerkarte "Profiler ", um Statistiken für die Quelldatenbank und für jedes Feld anzuzeigen, das in der Richtlinienregel enthalten ist. Die Statistiken werden aktualisiert, wenn die Regel der Richtlinie durchgeführt wird. Die Profilerstellung hilft Ihnen dabei, die Effektivität des Deduplizierungsprozesses zu bewerten und zu bestimmen, inwieweit der Prozess die Qualität der Daten verbessern kann. Genauigkeit bei der Profilerstellung ist für ein passendes Projekt nicht wichtig.

Die Quelldatenbankstatistiken umfassen Folgendes:

  • Datensätze: Die Gesamtzahl der Datensätze in der Datenbank

  • Gesamtwerte: Die Gesamtanzahl der Werte in den Feldern

  • Neue Werte: Die Gesamtzahl der Werte, die seit der vorherigen Ausführung neu sind, und deren Prozentsatz des gesamten Werts

  • Eindeutige Werte: Die Gesamtanzahl eindeutiger Werte in den Feldern und deren Prozentsatz des gesamten Werts

  • Neue eindeutige Werte: Die Gesamtzahl der eindeutigen Werte, die in den Feldern neu sind, und deren Prozentsatz des gesamten Werts

Die Feldstatistik umfasst Folgendes:

  • Feld: Name des Felds, das in den Zuordnungen enthalten war.

  • Domäne: Name der Domäne, die dem Feld zugeordnet wurde.

  • Neu: Die Anzahl der gefundenen neuen Übereinstimmungen und deren Prozentsatz an der Gesamtanzahl

  • Eindeutig: Die Anzahl der eindeutigen Datensätze im Feld und deren Prozentsatz der Gesamtzahl

  • Vollständigkeit: Der Prozentsatz, zu dem der Regelablauf abgeschlossen ist.

Entsprechende Richtlinienbenachrichtigungen

Für die entsprechenden Richtlinienaktivitäten führen die folgenden Bedingungen zu Benachrichtigungen:

  • Das Feld ist in allen Datensätzen leer; es wird empfohlen, es aus der Zuordnung zu entfernen.

  • Die Feld-Vollständigkeitsbewertung ist sehr niedrig; Möglicherweise möchten Sie es von der Zuordnung entfernen.

  • Alle Werte in einem Feld sind ungültig; Sie sollten die Zuordnung und die Relevanz von Domänenregeln für den Feldinhalt überprüfen.

  • Es gibt eine geringe Anzahl gültiger Werte im Feld. Sie sollten die Zuordnung und die Relevanz der Domain-Regeln für den Feldinhalt überprüfen.

  • In diesem Bereich gibt es ein hohes Maß an Einzigartigkeit. Die Verwendung dieses Felds in der Abgleichsrichtlinie kann die Ergebnisse verringern.

Registerkarte "Abgleichsregeln"

Klicken Sie auf diese Registerkarte, um eine Liste der Regeln in der übereinstimmenden Richtlinie und den Bedingungen in einer Regel anzuzeigen.

Regelliste
Zeigt eine Liste aller Abgleichsregeln in der Übereinstimmungsrichtlinie an. Wählen Sie eine der Regeln aus, um die Bedingungen der Regel in der Tabelle "Übereinstimmende Regel" anzuzeigen.

Übereinstimmende Regeltabelle
Zeigt jede Bedingung in der ausgewählten Regel an, einschließlich Domäne, Ähnlichkeitswert, Gewichtung und Voraussetzungsauswahl.

Registerkarte "Übereinstimmende Ergebnisse"

Klicken Sie auf die Registerkarte " Übereinstimmende Ergebnisse ", um Statistiken für die Analyse der Datenquelle mithilfe des für das Projekt ausgewählten Wissens und der übereinstimmenden Regel oder Regeln in dieser Wissensbasis anzuzeigen. Die Statistiken umfassen Folgendes:

  • Die Gesamtzahl der Datensätze in der Datenbank

  • Die Gesamtzahl der übereinstimmenden Datensätze in der Datenbank

  • Die Anzahl der Datensätze in der Datenbank, die nicht als Duplikate angesehen werden

  • Die Anzahl der ermittelten Cluster

  • Die durchschnittliche Clustergröße (Anzahl doppelter Datensätze dividiert durch die Anzahl der Cluster)

  • Die kleinste Anzahl von Duplikaten in einem Cluster

  • Die größte Anzahl von Duplikaten in einem Cluster