Freigeben über


Bereinigen von Daten mit (externem) Verweisdatenwissen

In diesem Thema wird beschrieben, wie Sie Daten mithilfe von Wissen aus den Referenzdatenanbietern bereinigen. Während alle Schritte zum Ausführen einer Bereinigungsaktivität für die Datenbereinigung mit Hilfe der Referenzdatenanbieter unverändert sind, wie im Dokument Cleanse Data Using DQS (Internal) Knowledge erläutert, bietet dieses Thema spezifische Informationen zur Datenbereinigung mithilfe des Referenzdaten-Dienstes in den Data Quality Services (DQS).

Wenn Sie die Referenzdatendienstfunktion in DQS verwenden, um Ihre Daten zu bereinigen, sendet der DQS-Bereinigungsprozess die zugeordneten Domänenwerte als Batchanforderung an den Referenzdatendienstanbieter. Der Referenzdatendienst antwortet mit den folgenden Informationen:

  • Vorgeschlagene Korrektur

  • Zuverlässigkeit

  • Zusätzliche Informationen zur zugeordneten Domäne. Referenzdaten können auch die Quelle mit zusätzlichen Daten standardisieren, analysieren oder anreichern. Diese Informationen werden in zusätzlichen Feldern in der Antwort bereitgestellt.

Nachdem die Antwort vom Referenzdatendienst abgerufen wurde, geschieht folgendes in DQS während der Bereinigungsaktivität:

  • Basierend auf den werten "Schwellenwert für die automatische Korrektur " und " Min Confidence ", die während der Zuordnung der Domänen mit dem Referenzdatendienst angegeben wurden, werden Domänenwerte basierend auf dem Konfidenzniveau automatisch korrigiert oder vorgeschlagen.

    Hinweis

    Die Schwellenwerte, die Sie während der Zuordnung einer Domäne zu einem Referenzdatendienst angeben, werden beim Reinigen von Daten mithilfe des Wissens im Referenzdatendienst und nicht der Schwellenwerte angewendet, die auf der Registerkarte " Allgemeine Einstellungen " im Abschnitt " Konfiguration " angegeben sind. Informationen zum Angeben von Schwellenwerten für die Bereinigung von Referenzdaten finden Sie in Schritt 9 unter Anfügen einer Domäne oder zusammengesetzten Domäne an Referenzdaten.

  • Domänenwerte werden wie folgt kategorisiert: "Vorgeschlagen", "Neu", "Ungültig", " Korrigiert" und "Richtig".

  • Zusätzliche Daten werden an die Quelle angefügt, und die Informationen sind zusammen mit den bereinigten Daten zum Exportieren verfügbar.

Bevor Sie beginnen

Voraussetzungen

Sie müssen die erforderlichen Domänen in einer DQS-Wissensdatenbank dem entsprechenden Referenzdatendienst zugeordnet haben. Darüber hinaus muss die Wissensdatenbank Wissen über den Datentyp enthalten, den Sie bereinigen möchten. Wenn Sie beispielsweise Ihre Quelldaten bereinigen möchten, die US-Adressen enthalten, müssen Sie Ihre Domänen einem Referenzdatendienstanbieter zuordnen, der qualitativ hochwertige Daten für US-Adressen bereitstellt. Weitere Informationen finden Sie unter Anfügen einer Domäne oder zusammengesetzten Domäne an Referenzdaten.

Sicherheit

Erlaubnisse

Sie müssen über die Rolle dqs_kb_editor oder dqs_kb_operator in der DQS_MAIN Datenbank verfügen, um die Datenbereinigung durchzuführen.

Bereinigen Sie Ihre Daten mit Wissen über Referenzdaten

Wir werden weiterhin dasselbe Beispiel für die Verwendung der Domänen verwenden, die wir im vorherigen Thema zugeordnet haben, eine Domäne oder eine zusammengesetzte Domäne an Referenzdaten anfügen, mit dem Melissa-Datendienst in Azure Marketplace. Jetzt verwenden wir dieselben Domänen, um einige US-Beispieladressen zu bereinigen. Die Schritte zum Bereinigen von Daten sind die gleichen wie in Cleanse Data Using DQS (Internal) Knowledge beschrieben. Wir werden Sie jedoch bei Bedarf während des Prozesses aufmerksam machen.

  1. Erstellen Sie ein Datenqualitätsprojekt, und wählen Sie die Bereinigungsaktivität aus. Siehe Erstellen eines Datenqualitätsprojekts.

  2. Ordnen Sie auf der Seite "Karte " die folgenden vier Domänen mit den entsprechenden Spalten in Ihren Quelldaten zu: Adresszeile, Ort, Bundesland und ZIP. Klicke auf Weiter.

    Hinweis

    Da Sie alle vier Domänen innerhalb der zusammengesetzten Domäne der Adressüberprüfung zugeordnet haben, erfolgt die Datenbereinigung jetzt auf zusammengesetzter Domänenebene und nicht auf einzelner Domänenebene.

  3. Führen Sie auf der Seite " Bereinigen " den computergestützten Reinigungsprozess aus, indem Sie auf "Start" klicken. Nachdem der Reinigungsprozess vorbei ist, klicken Sie auf "Weiter".

    Hinweis

    Auf der Seite "Bereinigen" werden von DQS Informationen zu den Domänen angezeigt, die an den Referenzdatendienst angefügt sind, auf folgende zwei Arten:

    • Unterhalb der Schaltfläche "Start" wird eine Meldung angezeigt: "Domänendomäne1<>, <Domäne2,... <>DomainN> werden mithilfe des Referenzdatendienstanbieters bereinigt." In diesem Beispiel wird die folgende Meldung angezeigt: "Domänenadressüberprüfung wird mithilfe des Referenzdatendienstanbieters bereinigt."
    • Ein Symbol, „Domäne ist an RDS angefügt“, wird im Profiler-Bereich bei den Domänen angezeigt, die an den Referenzdatendienstanbieter angefügt sind. In diesem Beispiel wird das Symbol für die zusammengesetzte Domäne " Adressüberprüfung " angezeigt.
  4. Überprüfen Sie auf der Seite "Ergebnisse verwalten und anzeigen " Ihre Domänenwerte. Der Referenzdatendienst kann mehr als einen Vorschlag für einen Wert anzeigen, abhängig von der im Feld "Vorgeschlagene Kandidaten" während der Zuordnung der Domäne zum Referenzdatendienst spezifizierten Maximalanzahl an Vorschlägen. Beispielsweise werden zwei Vorschläge für die folgende US-Adresse angezeigt:

    Ursprünglicher Wert:

    Adresszeile Stadt Staat Reißverschluss
    1 Msft-Weg Redmond 98052

    Vorgeschlagene Werte:

    Adresszeile Stadt Staat Schwirren
    1 Microsoft Way Redmond WA 98052
    Postfach 1 Redmond WA 98073

    Bereinigung mithilfe des Referenzdatendiensts

    Hinweis

    Bei zusammengesetzten Domänen hebt DQS auch die einzelnen Domänen in einer anderen Farbe hervor, die während des computergestützten Reinigungsprozesses korrigiert wurden. In diesem Fall wurden beispielsweise die Adresszeile und Bundesland-Domänen korrigiert und daher in cyan hervorgehoben.

  5. Nachdem Sie alle Domänenwerte überprüft haben, klicken Sie auf "Weiter ", um die Daten zu exportieren.

  6. Auf der Seite " Exportieren " werden Sie feststellen, dass neben den regelmäßigen Informationen über die Reinigungsaktivität für jede Domäne (Quelle, Grund, Konfidenz und Status) zusätzliche Informationen vom Melissa Data Reference Data Service über Ihre Adressdaten bereitgestellt werden, z. B. Breiten- und Längengrad Ihrer Adresse, Kreisname, Adresstyp (Highrise, Straße usw.), Und so weiter.

  7. Exportieren Sie Ihre Daten in das erforderliche Ziel (SQL Server, CSV oder Excel), und klicken Sie auf "Fertig stellen ", um das Projekt zu schließen.

    Von Bedeutung

    Wenn Sie eine 64-Bit-Version von Excel verwenden, können Sie die bereinigten Daten nicht in eine Excel-Datei exportieren. Sie können nur in eine SQL Server-Datenbank oder in eine .csv Datei exportieren.