Generar perfiles de datos en Power BI
La generación de perfiles de datos consiste en analizar los matices de los datos: la determinación de anomalías, el examen y el desarrollo de las estructuras de datos subyacentes y la consulta de estadísticas de datos, como recuentos de filas, distribuciones de valores, valores mínimos y máximos, promedios, etc. Este concepto es importante porque permite dar forma a los datos y organizarlos para que la interacción con los datos y la identificación de su distribución no sea complicada, lo que facilita el trabajo con los datos en el frontend para el desarrollo de elementos de informes.
Imagine que va a desarrollar informes para el equipo de ventas de la organización. No está seguro de cómo se estructuran los datos ni de cómo se incluyen en las tablas, por lo que quiere generar perfiles de los datos en segundo plano antes de empezar a desarrollar los objetos visuales. Power BI tiene una funcionalidad inherente que facilita y simplifica estas tareas.
Examen de las estructuras de datos
Antes de comenzar a examinar los datos en el editor de Power Query, debe conocer las estructuras de datos subyacentes en las que se organizan los datos. Puede ver el modelo semántico actual en la pestaña Modelo de Power BI Desktop.
En la pestaña Modelo, puede editar propiedades específicas de columna y tabla seleccionando una tabla o columnas, y puede transformar los datos con el botón Transformar datos, que le dirigirá al editor de Power Query. Además, puede administrar, crear, editar y eliminar relaciones entre diferentes tablas mediante la opciónAdministrar relaciones, que se encuentra en la cinta de opciones.
Búsqueda de anomalías y estadísticas de datos
Después de crear una conexión a un origen de datos y seleccionar Transformar datos, se le dirigirá al editor de Power Query, donde podrá determinar si hay anomalías en los datos. Las anomalías de datos son los valores atípicos. Determinar las anomalías puede ayudar a identificar qué aspecto tiene la distribución normal de los datos y si existen puntos de datos específicos que se deben investigar más. El editor de Power Query determina las anomalías de datos empleando la característica Distribución de columnas.
Seleccione Vista en la cinta de opciones; en Versión preliminar, tiene varias opciones para elegir. Para comprender las anomalías y las estadísticas de los datos, seleccione las opciones Distribución de columnas, Calidad de columnas y Perfil de columnas. En la siguiente imagen, se pueden ver las estadísticas que aparecerán.
Calidad de columnas y Distribución de columnas aparecen en los gráficos situados encima de las columnas de datos. Calidad de columnas muestra los porcentajes de datos válidos, con errores y vacíos. En una situación ideal, el 100 % de los datos serán válidos.
Nota
De forma predeterminada, Power Query examina las primeras 1000 filas del conjunto de datos. Para cambiar esto, seleccione el estado de la generación de perfiles en la barra de estado y seleccione Generación de perfiles de columna a partir de todo el conjunto de datos. ]
Distribución de columnas muestra la distribución de los datos en la columna y los recuentos de valores distintos y únicos. Ambos pueden indicarle los detalles sobre los recuentos de datos. Los valores distintos son todos los valores de una columna, incluidos los duplicados y nulos, mientras que los valores únicos no incluyen duplicados ni valores nulos. Por lo tanto, en esta tabla, distinct indica el número total de valores presentes, mientras que unique indica cuántos de esos valores aparecen solo una vez.
Perfil de columnas ofrece una visión más profunda de las estadísticas dentro de las columnas para las primeras 1000 filas de datos. Esta columna proporciona varios valores, incluido el recuento de filas, que es importante al comprobar si la importación de los datos se ha realizado correctamente. Por ejemplo, si la base de datos original tenía 100 filas, podría usar este recuento de filas para comprobar que las 100 filas se importaron correctamente. Además, este recuento de filas mostrará el número de filas que Power BI ha considerado como valores atípicos, (filas y cadenas vacías) o como mínimo y máximo (el valor menor y mayor de una columna). Esta distinción es particularmente importante en el caso de los datos numéricos porque le notificará inmediatamente si tiene un valor máximo que está más allá de lo que su empresa identifica como "máximo". Este valor le indica la existencia de estos valores, de modo que pueda dedicarse a profundizar en los datos. En el caso de que los datos estuvieran en la columna de texto, tal como se ha mostrado en la imagen anterior, el valor mínimo es el primer valor y el valor máximo es el último valor en orden alfabético.
Además, el gráfico Distribución de valores indica los recuentos de cada uno de los valores diferentes de esa columna específica. Al observar el gráfico de la imagen anterior, observe que la distribución de valores indica que "Anthony Gross" es quien más veces aparece en la columna SalesPerson y que "Lily Code" es quien menos veces aparece. Esta información es especialmente importante porque identifica los valores atípicos. Si un valor aparece mucho más que otros valores en una columna, la característica Distribución de valores permite identificar un lugar en el que empezar a investigar el motivo de que esto ocurra.
En una columna numérica, Estadísticas de columna incluirá también el número de ceros y valores null, junto con el valor medio de la columna, la desviación estándar de los valores de la columna y el número de valores pares e impares que hay en esa columna. Estas estadísticas proporcionan una idea de la distribución de los datos en la columna, y son importantes porque resumen los datos de la columna y sirven como punto inicial para determinar cuáles son los valores atípicos.
Por ejemplo, mientras revisa los datos de las facturas, observa que el gráfico de Distribución de valores muestra que algunos vendedores en la columna SalesPerson aparecen el mismo número de veces en los datos. Además, se da cuenta de que se ha producido la misma situación en la columnaProfit y en otras tablas. Durante la investigación, descubre que los datos que estaba usando eran datos incorrectos y debían actualizarse, por lo que se completa inmediatamente la actualización. Sin este gráfico, sería posible que no hubiera visto este error tan rápidamente, lo que evidencia que la distribución de valores es fundamental.
Cuando haya completado los cambios en el editor de Power Query y esté listo para comenzar a crear objetos visuales, vuelva a Inicio, en la cinta del editor de Power Query. Seleccione Cerrar y aplicar, que le devolverá a Power BI Desktop; se aplicarán también todas las ediciones o transformaciones de columnas.
Ya ha determinado los elementos que componen la generación de perfiles de datos en Power BI, lo que incluye cargar datos en Power BI, examinar las propiedades de las columnas para obtener claridad, realizar más ediciones sobre el tipo y el formato de los datos en las columnas, encontrar anomalías en los datos y ver estadísticas de datos en el editor de Power Query. Con estos conocimientos, ya sabe cómo estudiar los datos de un modo eficaz.