Profildaten in Power BI
Beim Profilen werden die Eigenheiten von Daten untersucht: Es werden Anomalien bestimmt, die zugrunde liegenden Datenstrukturen untersucht und entwickelt und Datenstatistiken wie die Zeilenanzahl, Werteverteilungen, Mindest‑ und Höchstwerte, Durchschnittswerte usw. abgefragt. Dieses Konzept ist wichtig, denn durch Profiling können Sie Daten so strukturieren und organisieren, dass Sie unkompliziert damit interagieren und die Verteilung schnell ermitteln können. Profiling ist daher eine Schlüsselkomponente, mit sich Berichtselemente nahezu mühelos mithilfe von Daten im Front-End entwickeln lassen.
Nehmen wir an, Sie entwickeln beispielsweise Berichte für das Vertriebsteam Ihrer Organisation. Sie sind sich nicht sicher, wie die Daten strukturiert und auf Tabellen aufgeteilt sind. Aus diesem Grund sollte ein Profil für die Daten unter der Haube erstellt werden, bevor Sie mit der Entwicklung der Visuals beginnen. Power BI umfasst inhärente Funktionen, mit denen diese Aufgaben anwendungsfreundlich und unkompliziert gemacht werden können.
Datenstrukturen untersuchen
Bevor Sie damit beginnen, Daten im Power Query-Editor zu untersuchen, sollten Sie sich zuerst mit den zugrunde liegenden Datenstrukturen für die Datenorganisation auseinandersetzen. Auf der Registerkarte Modell in Power BI Desktop können Sie das aktuelle semantische Modell anzeigen.
Auf der Registerkarte Modell können Sie bestimmte Spalten und Tabelleneigenschaften bearbeiten, indem Sie eine Tabelle oder Spalten auswählen, und Sie können die Daten transformieren, indem Sie die Schaltfläche Daten transformieren verwenden, die Sie zum Power Query-Editor weiterleitet. Zudem können Sie über Beziehungen verwalten die Beziehungen zwischen verschiedenen Tabellen verwalten, erstellen, bearbeiten und löschen. Diese Schaltfläche befindet sich im Menüband.
Suchen nach Datenanomalien und ‑statistiken
Nachdem Sie eine Verbindung zu einer Datenquelle hergestellt und Daten transformieren ausgewählt haben, werden Sie zum Power Query-Editor weitergeleitet, in dem Sie ermitteln können, ob in Ihren Daten Anomalien vorhanden sind. Als Anomalien werden Ausreißer innerhalb der Daten bezeichnet. Indem Sie diese Anomalien bestimmen, können Sie ermitteln, wie die Normalverteilung Ihrer Daten aussieht und ob bestimmte Datenpunkte vorhanden sind, die weiter untersucht werden müssen. Der Power Query-Editor verwendet die Funktion Spaltenverteilung, um Datenanomalien zu ermitteln.
Wählen Sie auf dem Menüband die Option Ansicht aus. Dann können Sie unter Datenvorschau aus einigen Optionen auswählen. Wählen Sie die Optionen Spaltenverteilung, Spaltenqualität und Spaltenprofil aus, um Datenanomalien und Statistiken zu verstehen. In der folgenden Abbildung sind die im Power Query-Editor angezeigten Statistiken zu sehen.
In den Diagrammen über den Datenspalten werden Spaltenqualität und Spaltenverteilung angezeigt. Die Spaltenqualität zeigt Ihnen den prozentualen Anteil gültiger, fehlerhafter und leerer Daten an. Idealerweise sollten 100 % der Daten gültig sein.
Hinweis
Power Query überprüft standardmäßig die ersten 1000 Zeilen Ihres Datasets. Um dies zu ändern, wählen Sie auf der Statusleiste den Profilerstellungsstatus und dann Spaltenprofilerstellung basierend auf gesamtem Dataset aus. ]
Die Funktion Spaltenverteilung zeigt die Verteilung der Daten innerhalb der Spalte sowie die Anzahl der unterschiedlichen und eindeutigen Werte an. Beide Werte können Ihnen Aufschluss über die Datenmengen geben. Unterschiedliche Werte sind alle unterschiedlichen Werte in einer Spalte, einschließlich Duplikaten und Nullwerten, während eindeutige Werte keine Duplikate oder Nullwerte enthalten. Deshalb sagt die Anzahl der unterschiedlichen Werte in dieser Tabelle aus, wie viele Werte insgesamt vorhanden sind, während die eindeutigen Werte angeben, wie viele dieser Werte nur einmal vorkommen.
Das Spaltenprofil stellt Ihnen für die ersten 1.000 Datenzeilen eine umfassende Untersuchung der Statistiken bereit. Diese Spalte enthält mehrere verschiedene Werte, einschließlich der Zeilenanzahl. Diese ist wichtig, um zu überprüfen, ob der Datenimport erfolgreich war. Wenn die ursprüngliche Datenbank z. B. 100 Zeilen enthielt, können Sie mit der Zeilenanzahl überprüfen, ob die 100 Zeilen tatsächlich korrekt importiert wurden. Zusätzlich weist diese Zeilenanzahl darauf hin, wie viele Zeilen von Power BI als Ausreißer, leere Zeilen und Zeichenfolgen bewertet hat. Außerdem werden die Mindest‑ und Höchstwerte angegeben, die jeweils den kleinsten und größten Wert innerhalb einer Spalte angeben. Diese Unterscheidung ist besonders wichtig bei numerischen Daten, da Sie sofort benachrichtigt werden, wenn Sie einen Maximalwert haben, der über dem liegt, was Ihr Unternehmen als „Maximum“ identifiziert. Dieser Wert lenkt Ihre Aufmerksamkeit auf diese Werte, sodass Sie Ihre Bemühungen dann konzentrieren können, wenn Sie tiefer in die Daten eintauchen. Wenn Daten wie in der vorherigen Abbildung aus der Textspalte stammen, wird zunächst der Mindestwert und anschließend der Maximalwert genannt, wenn dies der alphabetischen Reihenfolge entspricht.
Zudem gibt das Diagramm Wertverteilung Aufschluss über die Anzahl der einzelnen eindeutigen Werte in der jeweiligen Spalte. Betrachten Sie das Diagramm im vorherigen Bild, und Sie erkennen, dass die Werteverteilung anzeigt, dass „Anthony Gross“ am häufigsten in der Spalte SalesPerson angezeigt wird und „Lily Code“ am seltensten vorkommt. Dies ist besonders wichtig, da diese Werte Ausreißer darstellen. Wenn ein Wert deutlich öfter als andere innerhalb einer Spalte auftaucht, bietet Ihnen die Funktion Wertverteilung einen Ausgangspunkt für die Ursachenforschung.
Für numerische Spalten gibt die Spaltenstatistik auch die Anzahl der Nullen und NULL-Werte, den Durchschnittswert der Spalte, die Standardabweichung der Spaltenwerte und der Anzahl der geraden und ungeraden Spaltenwerte wieder. Diese Informationen helfen Ihnen, sich ein Bild von der Verteilung der Daten innerhalb der Spalte zu machen. Sie sind wichtig, weil sie die Spaltendaten zusammenfassen und als Ausgangspunkt für die Bestimmung von Ausreißern dienen.
Während Sie die Rechnungsdaten durchgehen, bemerken Sie zum Beispiel, dass das Diagramm Wertverteilung anzeigt, dass einige Verkäufer in der Spalte SalesPerson mit gleicher Häufigkeit in den Daten zu finden sind. Sie stellen dasselbe in der Spalte Profit und einigen anderen Tabellen fest. Bei Ihren Untersuchungen bemerken Sie, dass die verwendeten Daten mangelhaft waren und aktualisiert werden müssen. Sie führen die Aktualisierung umgehend durch. Ohne dieses Diagramm wäre Ihnen dieser Fehler möglicherweise nicht so schnell aufgefallen. Aus genau diesem Grund ist die Wertverteilung so elementar.
Nachdem Sie im Power Query-Editor alle Änderungen durchgeführt haben und damit beginnen können, Visuals zu erstellen, kehren Sie im Menüband des Power Query-Editors zurück zu Start. Wählen Sie die Option Schließen und anwenden aus. Dadurch werden Sie zurückgeleitet zu Power BI Desktop, und alle Bearbeitungen und Transformationen bezüglich der Spalte werden angewandt.
Nun haben Sie ermittelt, welche Elemente die Profilierungsdaten in Power BI bilden. Dazu gehören das Laden von Daten in Power BI, das Prüfen der Spalteneigenschaften, um Informationen über Art und Format der Daten in Spalten zu erhalten und diese dann zu bearbeiten, das Erkennen von Datenanomalien sowie die Anzeige von Datenstatistiken im Power Query-Editor. Dies bedeutet, dass Sie sich eine weitere wichtige Fachkompetenz angeeignet haben: das effiziente und effektive Untersuchen von Daten.