Freigeben über


Bereinigen von Daten mit (internem) DQS-Wissen

In diesem Thema wird beschrieben, wie Sie Ihre Daten mithilfe eines Datenqualitätsprojekts in Data Quality Services (DQS) bereinigen. Die Datenbereinigung erfolgt auf Ihren Quelldaten mithilfe einer Wissensbasis, die in DQS für eine qualitativ hochwertige Datengruppe erstellt wurde. Weitere Informationen finden Sie unter Building a Knowledge Base.

Die Datenbereinigung erfolgt in vier Phasen: einer Zuordnungsphase , in der Sie die zu bereinigende Datenquelle identifizieren und sie den erforderlichen Domänen in einer Wissensbasis zuordnen, einer computergestützten Bereinigungsphase , in der DQS die Wissensbasis auf die zu bereinigenden Daten anwendet, und schlägt Änderungen an den Quelldaten vor, eine interaktive Bereinigungsphase , in der Data Stewards die Datenänderungen analysieren können, und akzeptieren/ablehnen sie die Datenänderungen und schließlich die Exportphase , in der Sie die bereinigten Daten exportieren können. Jeder dieser Prozesse wird auf einer separaten Seite des Reinigungsaktivitäts-Assistenten ausgeführt, sodass Sie zu verschiedenen Seiten hin- und herwechseln, den Prozess erneut ausführen und einen bestimmten Reinigungsprozess schließen und dann zur gleichen Phase des Prozesses zurückkehren können. DQS bietet Ihnen Statistiken über die Quelldaten und die Bereinigungsergebnisse, mit denen Sie fundierte Entscheidungen zur Datenbereinigung treffen können.

Bevor Sie beginnen

Voraussetzungen

  • Sie müssen geeignete Schwellenwerte für die Reinigungsaktivität angegeben haben. Informationen hierzu finden Sie unter Konfigurieren von Schwellenwerten für die Bereinigung und den Abgleich.

  • Eine DQS-Wissensdatenbank muss auf dem Datenqualitätsserver verfügbar sein, mit dem Sie Ihre Quelldaten vergleichen und bereinigen möchten. Darüber hinaus muss die Wissensdatenbank Wissen über den Datentyp enthalten, den Sie bereinigen möchten. Wenn Sie beispielsweise Ihre Quelldaten bereinigen möchten, die US-Adressen enthalten, müssen Sie über eine Wissensdatenbank verfügen, die mit einer "qualitativ hochwertigen" Beispieldaten für US-Adressen erstellt wurde.

  • Microsoft Excel muss auf dem Datenqualitätsclientcomputer installiert sein, wenn sich die zu bereinigenden Quelldaten in einer Excel-Datei befinden. Andernfalls können Sie die Excel-Datei in der Zuordnungsphase nicht auswählen. Die von Microsoft Excel erstellten Dateien können eine Erweiterung von .xlsx, .xlsoder .csvhaben. Wenn die 64-Bit-Version von Excel verwendet wird, werden nur Excel 2003-Dateien (.xls) unterstützt; Excel 2007- oder 2010-Dateien (.xlsx) werden nicht unterstützt. Wenn Sie 64-Bit-Version von Excel 2007 oder 2010 verwenden, speichern Sie die Datei als .xls Datei oder als .csv-Datei, oder installieren Sie stattdessen eine 32-Bit-Version von Excel.

Sicherheit

Erlaubnisse

Sie müssen über die Rolle dqs_kb_editor oder dqs_kb_operator in der DQS_MAIN Datenbank verfügen, um die Datenbereinigung durchzuführen.

Erstellen eines Datenbereinigungsprojekts zur Qualitätssicherung

Sie müssen ein Datenqualitätsprojekt verwenden, um einen Datenbereinigungsvorgang auszuführen. So erstellen Sie ein Bereinigungsprojekt zur Datenqualität:

  1. Führen Sie die Schritte 1 bis 3 im Thema "Erstellen eines Datenqualitätsprojekts" aus.

  2. Wählen Sie in Schritt 3.d die Bereinigungsaktivität aus.

  3. Klicken Sie auf "Erstellen ", um ein Projekt zur Bereinigung der Datenqualität zu erstellen.

Dadurch wird ein Projekt zur Bereinigung der Datenqualität erstellt und die Seite "Karte" des Assistenten zur Bereinigung der Datenqualität geöffnet.

Zuordnungsphase

In der Zuordnungsphase geben Sie die Verbindung mit den quelldaten an, die bereinigt werden sollen, und ordnen die Spalten in den Quelldaten den entsprechenden Domänen in der ausgewählten Wissensdatenbank zu.

  1. Wählen Sie auf der Seite "Karten" des Assistenten zur Datenqualitätsbereinigung Ihre Quelldaten aus, die bereinigt werden sollen: SQL Server oder Excel-Datei:

    1. SQL Server: Wählen Sie DQS_STAGING_DATA als Quelldatenbank aus, wenn Sie die Quelldaten in diese Datenbank kopiert haben, und wählen Sie dann die entsprechende Tabelle/Ansicht aus, die Ihre Quelldaten enthält. Wählen Sie andernfalls die Quelldatenbank und die entsprechende Tabelle/Ansicht aus. Ihre Quelldatenbank muss in derselben SQL Server-Instanz wie der Datenqualitätsserver vorhanden sein, um in der Dropdownliste "Datenbank" verfügbar zu sein.

    2. Excel-Datei: Klicken Sie auf "Durchsuchen", und wählen Sie die Excel-Datei aus, die die zu bereinigenden Daten enthält. Microsoft Excel muss auf dem Clientcomputer für Datenqualität installiert sein, um eine Excel-Datei auszuwählen. Andernfalls ist die Schaltfläche " Durchsuchen " nicht verfügbar, und Sie werden unter diesem Textfeld benachrichtigt, dass Microsoft Excel nicht installiert ist. Lassen Sie außerdem das Kontrollkästchen "Erste Zeile als Kopfzeile verwenden " aktiviert, wenn die erste Zeile der Excel-Datei Kopfzeilendaten enthält.

  2. Ordnen Sie unter "Zuordnungen" die Datenspalten in Ihren Quelldaten den entsprechenden Domänen in der Wissensdatenbank zu, indem Sie in der Dropdownliste in der Spalte " Quellspalte " eine Quellspalte auswählen und dann eine Domäne aus der Dropdownliste in der Spalte "Domäne " in derselben Zeile auswählen. Wiederholen Sie diesen Schritt, um alle Spalten in Ihren Quelldaten mit den entsprechenden Bereichen in der Knowledge Base zuzuordnen. Bei Bedarf können Sie auf das Symbol "Spaltenzuordnung hinzufügen " klicken, um der Zuordnungstabelle Zeilen hinzuzufügen.

    Hinweis

    Sie können Ihre Quelldaten nur dann einer DQS-Domäne zuordnen, um die Datenbereinigung durchzuführen, wenn der Quelldatentyp in DQS unterstützt wird und mit dem DQS-Domänendatentyp übereinstimmt. Informationen zu unterstützten Quelldatentypen finden Sie unter Unterstützte SQL Server- und SSIS-Datentypen für DQS-Domänen.

  3. Klicken Sie auf das Symbol "Datenquellenvorschau" , um die Daten in der ausgewählten SQL Server-Tabelle oder in der ausgewählten Ansicht oder dem ausgewählten Excel-Arbeitsblatt anzuzeigen.

  4. Klicken Sie auf "Zusammengesetzte Domänen anzeigen/auswählen ", um eine Liste der zusammengesetzten Domänen anzuzeigen, die einer Quellspalte zugeordnet sind. Diese Schaltfläche ist nur verfügbar, wenn Sie mindestens eine zusammengesetzte Domäne einer Quellspalte zugeordnet haben.

  5. Klicken Sie auf "Weiter", um mit der computerunterstützten Bereinigung fortzufahren (Seite "Bereinigen").

Computer-Assisted Reinigungsphase

In der computergestützten Reinigungsphase führen Sie einen automatisierten Datenbereinigungsprozess aus, der Quelldaten mit den zugeordneten Domänen in der Wissensbasis analysiert und Datenänderungen vorschlägt.

  1. Klicken Sie auf der Seite " Bereinigen " des Datenqualitäts-Assistenten auf " Start ", um den computergestützten Reinigungsprozess auszuführen. DQS verwendet erweiterte Algorithmen und Konfidenzstufen basierend auf den angegebenen Schwellenwerten, um Ihre Daten anhand der ausgewählten Wissensbasis zu analysieren und dann zu bereinigen. Ausführliche Informationen dazu, wie computergestützte Reinigungen in DQS auftreten, finden Sie unter "Computergestützte Reinigung in Der Datenreinigung".

    Von Bedeutung

    • Nach Abschluss der Datenanalyse wird die Schaltfläche " Start " in eine Schaltfläche " Neustart " umgewandelt. Wenn die Ergebnisse aus der vorherigen Analyse noch nicht gespeichert wurden, führt das Klicken auf "Neu starten " dazu, dass vorherige Daten verloren gehen. Wenn die Analyse ausgeführt wird, verlassen Sie die Seite nicht, oder der Analyseprozess wird beendet.

    • Wenn die für das Reinigungsprojekt verwendete Wissensbasis aktualisiert und veröffentlicht wurde, nachdem das Reinigungsprojekt erstellt wurde, werden Sie durch Klicken auf "Start " aufgefordert, die neueste Wissensbasis für die Reinigung zu verwenden. Dies kann in der Regel passieren, wenn Sie ein Datenqualitätsprojekt mit einer Wissensbasis erstellt haben, das Bereinigungsprojekt in der Mitte geschlossen haben, indem Sie auf "Schließen" klicken und dann das Datenqualitätsprojekt zu einem späteren Zeitpunkt erneut öffnen, um eine Bereinigung durchzuführen. In der Zwischenzeit wurde die im Reinigungsprojekt verwendete Wissensbasis aktualisiert und veröffentlicht.

      Ähnlich wie bei früheren Aufgaben werden Sie gefragt, wenn die für das Reinigungsprojekt verwendete Wissensbasis nach dem letzten Ausführen der computergestützten Reinigung aktualisiert und veröffentlicht wurde, ob Sie beim Klicken auf Neu starten die neueste Wissensbasis für die Reinigung verwenden möchten.

      Klicken Sie in beiden Fällen auf "Ja ", um die aktualisierte Wissensbasis für die computergestützte Reinigung zu verwenden. Wenn konflikte zwischen den aktuellen Zuordnungen und der aktualisierten Knowledge Base auftreten (z. B. domänen wurden gelöscht oder der Domänendatentyp geändert), werden Sie außerdem aufgefordert, die aktuellen Zuordnungen zur Verwendung der aktualisierten Wissensbasis zu beheben. Wenn Sie auf "Ja " klicken, gelangen Sie zur Seite "Karte ", auf der Sie die Zuordnungen beheben können, bevor Sie mit der computergestützten Reinigung fortfahren.

  2. Während der computergestützten Bereinigungsphase können Sie den Profiler aktivieren, indem Sie auf die Registerkarte " Profiler " klicken, um die Profilerstellung und Benachrichtigungen in Echtzeit anzuzeigen. Weitere Informationen finden Sie unter Profiler Statistics.

  3. Wenn Sie mit den Ergebnissen nicht zufrieden sind, klicken Sie auf „Zurück“, um zur „Zuordnungsseite“ zurückzukehren, ändern Sie bei Bedarf eine oder mehrere Zuordnungen, kehren Sie zur „Bereinigungsseite“ zurück und klicken Sie dann auf „Neu starten“.

  4. Klicken Sie nach Abschluss des computergestützten Reinigungsprozesses auf "Weiter" , um mit der interaktiven Reinigung fortzufahren (Seite "Ergebnisse verwalten und anzeigen ").

Interaktive Reinigungsphase

In der interaktiven Bereinigungsphase können Sie die Änderungen sehen, die DQS vorgeschlagen hat, und entscheiden, ob sie implementiert werden sollen, indem Sie die Änderungen genehmigen oder ablehnen. Im linken Bereich der Seite " Ergebnisse verwalten und anzeigen " zeigt DQS eine Liste aller Domänen an, die Sie zuvor in der Zuordnungsphase zugeordnet haben, sowie die Anzahl der Werte in den Quelldaten, die während der computergestützten Bereinigungsphase für jede Domäne analysiert wurden. Im rechten Bereich der Seite " Ergebnisse verwalten und anzeigen " basierend auf der Einhaltung der Domänenregeln, Syntaxfehlerregeln und erweiterten Algorithmen kategorisiert DQS die Daten mithilfe der Konfidenzstufe unter fünf Registerkarten. Das Konfidenzniveau gibt den Grad der Sicherheit der DQS für die Korrektur oder den Vorschlag an und basiert auf den folgenden Schwellenwerten:

  • Schwellenwert für die automatische Korrektur: Jeder Wert mit einem Konfidenzniveau über diesem Schwellenwert wird automatisch von DQS korrigiert. Allerdings kann der Data Steward die Änderung während der interaktiven Reinigung außer Kraft setzen. Sie können den Schwellenwert für die automatische Korrektur auf der Registerkarte " Allgemeine Einstellungen " im Konfigurationsbildschirm angeben. Weitere Informationen finden Sie unter "Konfigurieren von Schwellenwerten für Die Bereinigung und Übereinstimmung".

  • Schwellenwert für automatische Vorschläge: Jeder Wert, der über diesem Schwellenwert ein Konfidenzniveau hat, aber unter dem Schwellenwert für die automatische Korrektur, wird als Ersatzwert vorgeschlagen. DQS nimmt die Änderung nur dann vor, wenn der Datenverantwortliche sie genehmigt. Sie können den Schwellenwert für automatische Vorschläge auf der Registerkarte " Allgemeine Einstellungen " im Konfigurationsbildschirm angeben. Weitere Informationen finden Sie unter "Konfigurieren von Schwellenwerten für Die Bereinigung und Übereinstimmung".

  • Andere: Jeder Wert unterhalb des Schwellenwerts für automatische Vorschläge bleibt unverändert von DQS.

Die Werte werden entsprechend dem Konfidenzniveau unter den folgenden fünf Registerkarten angezeigt.

Registerkarte BESCHREIBUNG
Vorgeschlagen Zeigt die Domänenwerte an, für die DQS die vorgeschlagenen Werte gefunden hat, deren Konfidenzniveau höher als der Schwellenwert für automatische Vorschläge , aber niedriger als der Schwellenwert für die automatische Korrektur ist.

Die vorgeschlagenen Werte werden in der Spalte Korrigieren auf gegenüber dem ursprünglichen Wert angezeigt. Sie können auf das Optionsfeld in der Spalte " Genehmigen " oder "Ablehnen " für einen Wert im oberen Raster klicken, um den Vorschlag für alle Instanzen des Werts anzunehmen oder abzulehnen. In diesem Fall wechselt der akzeptierte Wert zur Registerkarte "Korrigiert ", und der abgelehnte Wert wird auf die Registerkarte "Ungültig " verschoben.
Neu Zeigt die gültige Domäne an, für die DQS nicht genügend Informationen enthält und daher keiner anderen Registerkarte zugeordnet werden kann. Darüber hinaus enthält diese Registerkarte auch Werte, die das Konfidenzniveau kleiner als der Schwellenwert für automatische Vorschläge haben, aber hoch genug, um als gültig markiert zu werden.

Klicken Sie auf das Optionsfeld in der Spalte Genehmigen, wenn Sie der Meinung sind, dass der Wert korrekt ist. Klicken Sie andernfalls in der Spalte "Ablehnen" auf das Optionsfeld. Der akzeptierte Wert wechselt zur Registerkarte "Richtig ", und der abgelehnte Wert wird auf die Registerkarte "Ungültig " verschoben. Sie können auch manuell den richtigen Wert als Ersatz für den ursprünglichen Wert in der Spalte "Richtig bis" für den Wert eingeben und dann in der Spalte " Genehmigen " auf das Optionsfeld klicken, um die Änderung anzunehmen. In diesem Fall wird der Wert zur Registerkarte "Korrigiert" verschoben.
Ungültig Zeigt die Domänenwerte an, die in der Domäne in der Knowledge Base als ungültig markiert wurden, oder Werte, bei denen eine Domänenregel fehlgeschlagen ist. Diese Registerkarte enthält auch Werte, die vom Benutzer in einer der anderen vier Registerkarten abgelehnt wurden.

Wenn Sie jedoch der Meinung sind, dass der Wert richtig ist, klicken Sie in der Spalte "Genehmigen" auf den Radiobutton. Der akzeptierte Wert wird zur Registerkarte "Richtig " verschoben. Sie können auch manuell den richtigen Wert als Ersatz für den ursprünglichen Wert in der Spalte "Richtig bis" für den Wert eingeben und dann in der Spalte " Genehmigen " auf das Optionsfeld klicken, um die Änderung anzunehmen. In diesem Fall wechselt der Wert zur Registerkarte "Korrigiert ".
Korrigiert Zeigt die Domänenwerte an, die während des automatisierten Bereinigungsprozesses von DQS korrigiert werden, da DQS eine Korrektur für den Wert mit Konfidenzniveau oberhalb des Schwellenwerts für die automatische Korrektur gefunden hat.

Die korrigierten Werte werden in der Spalte Korrigiert zu neben dem ursprünglichen Wert angezeigt. Standardmäßig ist das Optionsfeld in der Spalte " Genehmigen " für den Wert ausgewählt. Wenn erforderlich, können Sie die vorgeschlagene Korrektur ablehnen, indem Sie in der Spalte " Ablehnen " auf das Optionsfeld klicken, um sie auf die Registerkarte "Ungültig " zu verschieben, oder manuell den richtigen Wert in die Spalte " Korrigieren " eingeben und dann in der Spalte "Genehmigen" auf das Optionsfeld klicken, um die Änderung anzunehmen, und sie zur Registerkarte " Korrigiert " verschieben.
Richtig Zeigt die Domänenwerte an, die richtig gefunden wurden. Beispielsweise entspricht der Wert einem Domänenwert. Diese Registerkarte enthält auch Werte, die vom Benutzer genehmigt wurden, indem sie auf das Optionsfeld in der Spalte " Genehmigen " in den Registerkarten " Neu " und "Ungültig " klicken.

Standardmäßig wird das Optionsfeld in der Spalte "Genehmigen " für jeden Wert ausgewählt. Wenn Sie jedoch glauben, dass ein Wert auf dieser Registerkarte falsch ist, können Sie entweder auf das Optionsfeld in der Spalte "Ablehnen " gegen den Wert klicken, um ihn zur Registerkarte "Ungültig " zu verschieben, oder manuell den richtigen Wert als Ersatz für den Wert in der Spalte " Richtig bis" gegen den Wert eingeben und dann in der Spalte " Genehmigen " auf das Optionsfeld klicken, um die Änderung anzunehmen, und verschieben Sie sie auf die Registerkarte "Korrigiert ".

So bereinigen Sie die Daten interaktiv:

  1. Klicken Sie auf der Seite "Ergebnisse verwalten und anzeigen " des Assistenten zum Reinigen von Datenqualität im linken Bereich auf einen Domänennamen.

  2. Überprüfen Sie die Domänenwerte unter den fünf Registerkarten, und ergreifen Sie entsprechende Maßnahmen, wie weiter oben erläutert.

    • Im rechten oberen Bereich werden die folgenden Informationen für jeden Wert in der ausgewählten Domäne angezeigt: originaler Wert, Anzahl von Instanzen (Datensätzen), ein Feld zum Angeben eines anderen (richtigen) Werts, des Konfidenzniveaus (nicht verfügbar für die Werte unter der Registerkarte "Richtig "), der Grund für die DQS-Aktion für den Wert sowie die Option zum Genehmigen und Ablehnen der Korrekturen und Vorschläge für den Wert.

      Tipp

      Sie können alle Werte in der ausgewählten Domäne im oberen rechten Bereich genehmigen oder ablehnen, indem Sie auf das Symbol "Alle Ausdrücke genehmigen " bzw. " Alle Ausdrücke ablehnen " klicken. Alternativ können Sie mit der rechten Maustaste auf einen Wert in der ausgewählten Domäne klicken und im Kontextmenü auf "Alle annehmen " oder " Alle ablehnen " klicken.

    • Im unteren Bereich werden einzelne Vorkommen des im rechten oberen Bereich ausgewählten Domänenwerts angezeigt. Die folgenden Informationen werden angezeigt: ein Feld zum Angeben eines anderen (richtigen) Werts, des Konfidenzniveaus (nicht verfügbar für die Werte unter der Registerkarte "Richtig "), der Grund für die DQS-Aktion für den Wert, die Option zum Genehmigen und Ablehnen der Korrekturen und Vorschläge für den Wert und den ursprünglichen Wert.

  3. Wenn Sie die Rechtschreibprüfungsfunktion für eine Domäne während der Erstellung aktiviert haben, werden wellenförmige rote Unterstriche für solche Domänenwerte angezeigt, die als potenzielle Fehler identifiziert werden. Der Unterstrich wird für den gesamten Wert angezeigt. Wenn beispielsweise "New York" falsch als "Neu York" geschrieben ist, zeigt die Rechtschreibprüfung unter "Neu York" einen roten Unterstrich und nicht nur "Neu". Wenn Sie mit der rechten Maustaste auf den Wert klicken, werden vorgeschlagene Korrekturen angezeigt. Wenn mehr als 5 Vorschläge vorhanden sind, können Sie im Kontextmenü auf "Weitere Vorschläge " klicken, um die restlichen Vorschläge anzuzeigen. Wie bei der Fehleranzeige sind die Vorschläge Ersatz für den gesamten Wert. Beispielsweise wird "New York" als Vorschlag im vorherigen Beispiel und nicht nur als "Neu" angezeigt. Sie können einen der Vorschläge auswählen oder dem Wörterbuch einen Wert hinzufügen, der für diesen Wert angezeigt werden soll. Werte werden im Wörterbuch auf Benutzerkontoebene gespeichert. Wenn Sie einen Vorschlag aus dem Kontextmenü der Rechtschreibprüfung auswählen, wird der ausgewählte Vorschlag der Spalte "Korrigieren zu" hinzugefügt. Wenn Sie jedoch einen Vorschlag in der Spalte "Richtig bis" auswählen, wird der Wert in der Spalte durch den ausgewählten Vorschlag ersetzt.

    Die Rechtschreibprüfungsfunktion ist standardmäßig in der interaktiven Bereinigungsphase aktiviert. Sie können die Rechtschreibprüfung in der interaktiven Bereinigungsphase deaktivieren, indem Sie auf das Symbol "Rechtschreibprüfung aktivieren/deaktivieren " oder im Bereich "Domänenwerte" mit der rechten Maustaste klicken und dann im Kontextmenü auf " Rechtschreibprüfung " klicken. Führen Sie die gleichen Schritte aus, um sie wieder zu aktivieren.

    Hinweis

    Das Rechtschreibfeature ist nur im oberen Bereich (Domänenwerte) verfügbar. Darüber hinaus können Sie die Rechtschreibprüfung für zusammengesetzte Domänen nicht aktivieren oder deaktivieren. Die untergeordneten Domänen in einer zusammengesetzten Domäne, die vom Zeichenfolgentyp sind und für die Rechtschreibfunktion aktiviert sind, verfügen standardmäßig über die Rechtschreibfunktion in der interaktiven Bereinigungsphase.

  4. Während der interaktiven Bereinigungsphase können Sie den Profiler aktivieren, indem Sie auf die Registerkarte " Profiler " klicken, um die Profilerstellung und Benachrichtigungen in Echtzeit anzuzeigen. Weitere Informationen finden Sie unter Profiler Statistics.

  5. Nachdem Sie alle Domänenwerte überprüft haben, klicken Sie auf "Weiter ", um mit der Exportphase fortzufahren.

Exportphase

In der Exportphase geben Sie die Parameter für den Export ihrer bereinigungen Daten an: was und wo exportiert werden soll.

  1. Wählen Sie auf der Seite "Exportieren" des Assistenten zum Bereinigen von Datenqualität den Zieltyp zum Exportieren ihrer bereinigten Daten aus: SQL Server, CSV-Datei oder Excel-Datei.

    Von Bedeutung

    Wenn Sie eine 64-Bit-Version von Excel verwenden, können Sie Ihre bereinigten Daten nicht in eine Excel-Datei exportieren. Sie können nur in eine SQL Server-Datenbank oder in eine .csv Datei exportieren.

    1. SQL Server: Wählen Sie DQS_STAGING_DATA als Zieldatenbank aus, wenn Sie Ihre Daten hier exportieren möchten, und geben Sie dann einen Tabellennamen an, der erstellt wird, um Ihre exportierten Daten zu speichern. Wählen Sie andernfalls eine andere Datenbank aus, wenn Sie Daten in eine andere Datenbank exportieren möchten, und geben Sie dann einen Tabellennamen an, der zum Speichern der exportierten Daten erstellt wird. Ihre Zieldatenbank muss in derselben SQL Server-Instanz wie der Data Quality Server vorhanden sein, damit sie in der Dropdownliste "Datenbank " verfügbar ist.

    2. CSV-Datei: Klicken Sie auf "Durchsuchen", und geben Sie den Namen und Speicherort der .csv Datei an, in die Sie die bereinigten Daten exportieren möchten. Sie können auch den Dateinamen für die .csv Datei zusammen mit dem vollständigen Pfad eingeben, in den Sie die bereinigten Daten exportieren möchten. Beispiel: "c:\ExportedData.csv". Die Datei wird auf dem Computer gespeichert, auf dem der Data Quality Server installiert ist.

    3. Excel-Datei: Klicken Sie auf "Durchsuchen", und geben Sie den Namen und speicherort der Excel-Datei an, an der Sie die bereinigten Daten exportieren möchten. Sie können auch den Dateinamen für die Excel-Datei zusammen mit dem vollständigen Pfad eingeben, in den Sie die bereinigten Daten exportieren möchten. Beispiel: "c:\ExportedData.xlsx". Die Datei wird auf dem Computer gespeichert, auf dem der Data Quality Server installiert ist.

  2. Aktivieren Sie das Kontrollkästchen "Ausgabe standardisieren ", um die Ausgabe basierend auf dem für die Domäne ausgewählten Ausgabeformat zu standardisieren. Ändern Sie z. B. den Zeichenfolgenwert, indem Sie ihn in Großbuchstaben umwandeln oder den ersten Buchstaben des Wortes großschreiben. Informationen zum Angeben des Ausgabeformats einer Domäne finden Sie in der Liste " Formatausgabe" in " Domäneneigenschaften festlegen".

  3. Wählen Sie als Nächstes die Datenausgabe aus: Exportieren Sie nur die gereinigten Daten, oder exportieren Sie bereinigte Daten zusammen mit den Bereinigungsinformationen.

    • Nur Daten: Klicken Sie auf das Optionsfeld, um nur die gereinigten Daten zu exportieren.

    • Daten- und Bereinigungsinformationen: Klicken Sie auf den Radio-Button, um die folgenden Daten für jede Domäne zu exportieren.

      • <Domäne>_Source: Der ursprüngliche Wert in der Domäne.

      • <Domäne>_Output: Die bereinigten Werte in der Domäne.

      • <Domain>_Reason: Der für die Korrektur des Werts angegebene Grund.

      • <Domain>_Confidence: Das Konfidenzniveau für alle ausdrücke, die korrigiert wurden. Sie wird als Dezimalwert angezeigt, der dem entsprechenden Prozentwert entspricht. Beispielsweise wird ein Konfidenzniveau von 95% als 0,9500000 angezeigt.

      • <Domäne>_Status: Der Status des Domänenwerts nach der Datenbereinigung. Beispiel: "Vorgeschlagen", "Neu", "Ungültig", "Korrigiert" oder "Richtig".

      • Datensatzstatus: Neben einem Statusfeld für jede zugeordnete Domäne (<DomainName>_Status) zeigt das Feld "Datensatzstatus " den Status für einen Datensatz an. Wenn einer der Status der Domäne im Datensatz "Neu " oder "Richtig" lautet, wird der Datensatzstatus auf "Richtig" festgelegt. Wenn der Status der Domäne im Datensatz "Vorgeschlagen", "Ungültig" oder "Korrigiert" lautet, wird der Datensatzstatus auf den entsprechenden Wert festgelegt. Wenn beispielsweise der Status der Domäne im Datensatz Vorgeschlagen ist, wird der Datensatzstatus auf Vorgeschlagen festgelegt.

        Hinweis

        Wenn Sie den Referenzdatendienst für den Bereinigungsvorgang verwenden, stehen auch einige zusätzliche Daten zum Domänenwert zum Exportieren zur Verfügung. Weitere Informationen finden Sie unter Bereinigung von Daten mit externem Wissen durch Referenzdaten.

  4. Klicken Sie auf "Exportieren ", um Daten in das ausgewählte Datenziel zu exportieren. Wenn Sie folgendes ausgewählt haben:

    • SQL Server als Datenziel wird in der ausgewählten Datenbank eine neue Tabelle mit dem angegebenen Namen erstellt.

    • CSV-Datei als Datenziel wird eine .csv-Datei am Speicherort auf dem Datenqualitätsserver-Computer mit dem Dateinamen erstellt, den Sie weiter oben im Feld CSV-Dateiname angegeben haben.

    • Excel-Datei als Datenziel wird an dem Speicherort auf dem Computer für den Datenqualitätsserver mit dem Dateinamen erstellt, den Sie weiter oben im Excel-Dateinamenfeld angegeben haben.

  5. Klicken Sie auf "Fertig stellen ", um das Datenqualitätsprojekt zu schließen.

Profiler Statistik

Die Registerkarte "Profiler " enthält Statistiken, die die Qualität der Quelldaten angeben. Die Profilerstellung hilft Ihnen dabei, die Effektivität der Datenbereinigungsaktivität zu bewerten, und Sie können möglicherweise bestimmen, inwieweit die Datenbereinigung die Qualität der Daten verbessern konnte.

Die Registerkarte "Profiler " enthält die folgenden Statistiken für die Quelldaten nach Feld und Domäne:

  • Datensätze: Wie viele Datensätze im Datenbeispiel für die Datenbereinigungsaktivität analysiert wurden

  • Richtige Datensätze: Wie viele Datensätze sich als korrekt erwiesen haben.

  • Korrigierte Datensätze: Wie viele Datensätze korrigiert wurden

  • Vorgeschlagene Datensätze: Wie viele Datensätze vorgeschlagen wurden

  • Ungültige Datensätze: Anzahl ungültiger Datensätze

Die Feldstatistik umfasst Folgendes:

  • Feld: Name des Felds in den Quelldaten

  • Domäne: Name der Domäne, die dem Feld zugeordnet ist

  • Korrigierte Werte: Die Anzahl der Domänenwerte, die korrigiert wurden

  • Vorgeschlagene Werte: Die Anzahl der Domänenwerte, die vorgeschlagen wurden

  • Vollständigkeit: Die Vollständigkeit jedes Quellfelds, das für die Reinigungsaktivität zugeordnet ist

  • Genauigkeit: Die Genauigkeit jedes Quellfelds, das für die Reinigungsaktivität zugeordnet ist

Die DQS-Profilerstellung bietet zwei Dimensionen der Datenqualität: Vollständigkeit (Umfang, in dem Daten vorhanden sind) und Genauigkeit (in dem Umfang, in dem Daten für die beabsichtigte Verwendung verwendet werden können). Wenn Ihnen die Profilerstellung mitteilt, dass ein Feld relativ unvollständig ist, können Sie es aus der Wissensdatenbank eines Datenqualitätsprojekts entfernen. Profilerstellung stellt möglicherweise keine zuverlässige Vollständigkeitsstatistik für zusammengesetzte Domänen bereit. Wenn Sie Vollständigkeitsstatistiken benötigen, verwenden Sie einzelne Domänen anstelle zusammengesetzter Domänen. Wenn Sie zusammengesetzte Domänen verwenden möchten, können Sie eine Wissensbasis mit einzelnen Domänen zur Profilerstellung erstellen, die Vollständigkeit bestimmen und eine andere Domäne mit einer zusammengesetzten Domäne für den Reinigungsprozess erstellen. Beispielsweise könnte das Profiling eine Vollständigkeit von 95% für Adressdatensätze mithilfe einer kombinierten Domäne anzeigen, aber es könnte für eine der Spalten, wie etwa die Postleitzahlspalte, ein wesentlich höheres Maß an Unvollständigkeit geben. In diesem Beispiel können Sie die Vollständigkeit der Postleitzahlspalte mit einer einzigen Domäne messen. Profilerstellung bietet wahrscheinlich zuverlässige Genauigkeitsstatistiken für zusammengesetzte Domänen, da Sie die Genauigkeit für mehrere Spalten zusammen messen können. Der Wert dieser Daten befindet sich in der zusammengesetzten Aggregation, daher können Sie die Genauigkeit mit einer zusammengesetzten Domäne messen.

Genauigkeitsstatistiken erfordern wahrscheinlich mehr Interpretation, wenn Sie keinen Referenzdatendienst verwenden. Wenn Sie einen Referenzdatendienst für die Datenbereinigung verwenden, haben Sie eine Vertrauensstufe in Genauigkeitsstatistiken. Weitere Informationen zur Datenbereinigung mithilfe des Referenzdatendiensts finden Sie unter Cleanse Data Using Reference Data (External) Knowledge.

Reinigungsbenachrichtigungen

Die folgenden Bedingungen führen zu Benachrichtigungen:

  • Es gibt keine Korrekturen oder Vorschläge für ein Feld. Möglicherweise möchten Sie es aus der Zuordnung entfernen, die Wissensermittlung zuerst ausführen oder eine andere Wissensbasis verwenden.

  • Es gibt relativ wenige Korrekturen oder Vorschläge für ein Feld. Möglicherweise möchten Sie es aus der Zuordnung entfernen, die Wissensermittlung zuerst ausführen oder eine andere Wissensbasis verwenden.

  • Die Genauigkeitsstufe des Felds ist sehr niedrig. Möglicherweise möchten Sie die Zuordnung überprüfen oder in Betracht ziehen, zuerst die Wissensentdeckung durchzuführen.

Weitere Informationen zur Profilerstellung finden Sie unter Data Profiling and Notifications in DQS.