Freigeben über


Untersuchen und Bereinigen von Daten

Die Datenvorbereitung ist viel mehr als die Datenbereinigung. Denken Sie daran, dass die Art und Weise, wie Daten vorbereitet werden, auch beeinflusst, wie die Ergebnisse am Ende interpretiert werden. Die Datenvorbereitung umfasst die folgenden Aufgaben:

  • Untersuchen und Überprüfen der Verteilung von Daten.

  • Bereinigung ungültiger Datensätze und Auswahl von Spalten für Data-Mining.

  • Ordnungsgemäße Behandlung von Null-Werten.

  • Einordnung von Werten oder Aggregierung von Werten nach verschiedenen Zeitabschnitten.

  • Hinzufügen von Bezeichnungen zur Verbesserung der Benutzerfreundlichkeit der Ergebnisse.

  • Konvertieren von Datentypen oder Kategorisieren von Werten, falls erforderlich für die Analyse.

Wenn Sie mit der Datenmodellierung noch nicht beschäftigt sind, empfehlen wir Ihnen, das zugehörige Thema zu lesen, Prüfliste für die Vorbereitung auf Data Mining.

Datenvorbereitungstools

Die Data Mining-Add-Ins für Office umfassen die folgenden Tools für die Datenbereinigung und -vorbereitung:

Daten erkunden

Verwenden Sie den Assistenten "Daten durchsuchen " für diese Datenvorbereitungsaufgaben:

  • Zeigen Sie eine Vorschau Ihrer Daten an, und identifizieren Sie Fehler, die vor der Analyse behoben werden müssen.

  • Sammeln Sie statistische Informationen, die nützlich sind, um das Gleichgewicht von Daten und die erforderlichen Bereinigungsaufgaben zu verstehen.

  • Identifizieren Sie Spalten, die für die Analyse nützlich sind, und planen Sie die Datenmodellierungsphase.

Erkunden von Daten (SQL Server Data Mining-Add-Ins)

Erkennen und Behandeln von Ausreißern

Der Ausreißer-Assistent diagrammiert die Verteilung von Werten in Ihren Daten und unterstützt Sie beim Entfernen extremer Werte. Verwenden Sie das Tool "Ausreißer" für die folgenden Datenvorbereitungsaufgaben:

  • Ermitteln Sie, ob einzelne Werte zuverlässig sind, basierend auf Mustern in den Daten.

  • Überprüfen Sie ungewöhnliche Werte, und ergreifen Sie Maßnahmen, indem Sie sie löschen oder ersetzen.

  • Begrenzen Sie ein Modell auf einen bestimmten Wertebereich. Wenn Sie beispielsweise wissen, dass Sie Ausreißer in einem bestimmten Geschäft haben, können Sie diesen Wert entfernen und ein Modell erhalten, das andere Geschäfte besser vorhersagt.

Ausreißer (SQL Server Data Mining-Add-Ins)

Neubeschriftung und Bin-Daten

Der Assistent " Neu bezeichnen " gruppiert Daten nach Werten, sodass Sie die Beschriftungen für die Daten ändern können. Verwenden Sie das Umbenennen-Tool für diese Datenvorbereitungsaufgaben:

  • Ändern Sie die in Umfrageergebnissen verwendeten numerischen Codes in eine Textbeschreibung ihrer Bedeutung.

    Beispielsweise können Sie Dateneinträge wie Gender = 1 durch Gender = Female ersetzen.

  • Bin-Daten durch Erstellen von Gruppen zur Darstellung von Zahlenbereichen.

    Sie können beispielsweise eine Spalte "Einkommen" mit Zahlen durch Bezeichnungen wie "Einkommen" - "Mittel " und "Einkommen " Hoch" ersetzen.

  • Gruppieren Sie diskrete Werte in Kategorien.

    Wenn Sie beispielsweise zu viele einzelne Produkte haben, um ein Muster zwischen Einkäufen zu erkennen, können Sie versuchen, Produkte in breitere Kategorien zuzuweisen.

Neuetikettierung (SQL Server Data Mining-Add-Ins)

Bereinigen von Daten

Die Datenbereinigung umfasst eine vielzahl von Aktivitäten, von denen die meisten von den Add-Ins unterstützt werden

  • Identifizieren Sie Nullen, und bestimmen Sie, ob sie in einen echten Wert geändert oder als Missing Werte behandelt werden sollen.

  • Erkennen Sie fehlende Werte, und entfernen Sie sie, oder setzen Sie einen geeigneten Wert ein, z. B. einen Mittelwert, null oder einen anderen Wert.

Erkunden von Daten (SQL Server Data Mining-Add-Ins)

Umetikettierung (SQL Server Data Mining Add-Ins)

Anhand des Beispiels ausfüllen

Beispieldaten

Der Beispieldaten-Assistent bietet zwei Methoden zum Erstellen ausgewogener Datensätze für Schulungs- und Testmodelle.

  • Zufälliges Sampling. Verwenden Sie diese Option, um eine repräsentative Datenmenge aus einem größeren Dataset zu extrahieren, um sie entweder in Schulungen oder Tests zu verwenden. Die Data Mining-Add-Ins verwenden gestikulierte Samplings , um sicherzustellen, dass für jede variable Stichprobe eine ausgewogene Wertemenge abgerufen wird.

  • Übersampling. Verwenden Sie diese Option, wenn Sie weniger Daten als für ein Zielergebnis haben und diese Daten stärker gewichten müssen. Beispielsweise kann Betrug relativ selten sein, aber Sie können Fälle, die Betrug betreffen, überlasten, um angemessene Daten für die Modellierung zu erhalten.

Beispieldaten (SQL Server Data Mining-Add-Ins)

Siehe auch

Erstellen eines Data Mining-Modells
Validieren von Modellen und Verwenden von Modellen für Vorhersage (Data Mining-Add-Ins für Excel)
Bereitstellen und Skalieren von Miningmodellen (Data Mining-Add-Ins für Excel)