Compartir a través de


Muestreo de líneas de alta densidad en Power BI

El algoritmo de muestreo de Power BI mejora los objetos visuales que muestren datos de alta densidad. Por ejemplo, puede crear un gráfico de líneas a partir de los resultados de ventas de las tiendas minoristas, cada tienda teniendo más de 10 000 recibos de ventas cada año. Un gráfico de líneas de dicha información de ventas muestrea datos de cada tienda y crea un gráfico de líneas de varias series que representa los datos subyacentes. Asegúrese de seleccionar una representación significativa de esos datos para ilustrar cómo varían las ventas con el tiempo. Esta práctica es habitual en la visualización de datos de alta densidad. Los detalles del muestreo de datos de alta densidad se describen en este artículo.

Captura de pantalla de gráficos de líneas, en la que se muestran los datos de muestreo de alta densidad.

Nota:

El algoritmo de muestreo de alta densidad descrito en este artículo está disponible tanto en Power BI Desktop como en el servicio Power BI.

Funcionamiento del muestreo de líneas de alta densidad

Anteriormente, Power BI seleccionó una colección de puntos de datos de ejemplo en toda la gama de datos subyacentes de forma determinista. Por ejemplo, con datos de alta densidad en un objeto visual que abarca un año natural, podría haber 350 puntos de datos de ejemplo mostrados en el objeto visual, cada uno de los cuales se seleccionó para asegurarse de que el intervalo completo de datos se representaba en el objeto visual. Para ayudar a comprender cómo sucede esto, imagínese trazando la cotización de acciones durante un período de un año y seleccionando 365 puntos de datos para crear un gráfico de líneas. Es un dato por día.

En esa situación, hay muchos valores para los precios de las acciones a lo largo de cada día. Por supuesto, hay un máximo diario y un bajo, pero estos pueden ocurrir en cualquier momento durante el día en que el mercado de valores está abierto. Para el muestreo de líneas de alta densidad, si la muestra de datos subyacente se tomó a las 10:30 a.m. y a las 12:00 p. m. cada día, obtendría una instantánea representativa de los datos subyacentes, como el precio a las 10:30 a. m. y a las 12:00 p. m. Sin embargo, es posible que la instantánea no capture el valor real alto y bajo del precio de acciones de ese punto de datos representativo ese día. En esa situación y otros, el muestreo es representativo de los datos subyacentes, pero no siempre captura puntos importantes, que en este caso serían máximos y mínimos diarios de cotizaciones.

Por definición, los datos de alta densidad se muestrean para crear visualizaciones razonablemente rápidas que responden a la interactividad. Demasiados puntos de datos en una visualización pueden ralentizarla y afectar la visibilidad de las tendencias. Cómo se muestrean los datos es lo que impulsa la creación del algoritmo de muestreo para proporcionar la mejor experiencia de visualización de datos. En Power BI Desktop, el algoritmo proporciona la mejor combinación de capacidad de respuesta, representación y conservación clara de puntos importantes en cada segmento de tiempo.

Funcionamiento del nuevo algoritmo de muestreo de líneas

El algoritmo para el muestreo de líneas de alta densidad está disponible para gráficos de líneas y gráficos de áreas en visualizaciones con un eje X continuo.

Para un objeto visual de alta densidad, Power BI segmenta los datos de forma inteligente en fragmentos de alta resolución y, a continuación, elige puntos importantes para representar cada fragmento. Ese proceso de segmentado de datos de alta resolución se ajusta para asegurarse de que el gráfico resultante sea visualmente indistinguible de renderizar todos los puntos de datos subyacentes, y sin embargo, es más rápido y más interactivo.

Valores mínimos y máximos para objetos visuales de línea de alta densidad

Para cualquier visualización, se aplican las siguientes limitaciones:

  • 3500 es el número máximo de puntos de datos que se muestran en la mayoría de los objetos visuales, independientemente del número de puntos de datos o series subyacentes, vea excepciones en la lista siguiente. Por ejemplo, si tiene 10 series con 350 puntos de datos cada uno, el objeto visual ha alcanzado su límite máximo de puntos de datos generales. Si tiene una serie, esta podría contener hasta 3,500 puntos de datos si el algoritmo considera que es el mejor muestreo para los datos subyacentes.

  • Hay un máximo de 60 series para cualquier elemento visual. Si tiene más de 60 series, divida los datos y cree varios objetos visuales con 60 o menos series cada uno. Es buena práctica usar una segmentación de datos para mostrar únicamente ciertas partes de los datos, pero solo para determinadas series. Por ejemplo, si va a mostrar todas las subcategorías en la leyenda, puede usar un segmentador para filtrar por la categoría general en la misma página del informe.

El número máximo de límites de datos es mayor para los siguientes tipos visuales, que son excepciones al límite de 3500 puntos de datos:

  • Máximo de 150 000 puntos de datos para las visualizaciones de R.
  • 30 000 puntos de datos para objetos visuales de Azure Map.
  • 10 000 puntos de datos para algunas configuraciones de gráficos de dispersión (los gráficos de dispersión predeterminados son 3500).
  • 3,500 para todos los demás objetos visuales mediante el muestreo de alta densidad. Otros objetos visuales pueden visualizar más datos, pero no usarán el muestreo.

Estos parámetros garantizan que los objetos visuales de Power BI Desktop se representen rápidamente, respondan a la interacción con los usuarios y no produzcan una sobrecarga computacional innecesaria en el equipo que representa el objeto visual.

Evaluar puntos de datos representativos para visualizaciones de líneas de alta densidad

Cuando el número de puntos de datos subyacentes supera el número máximo de puntos de datos que se pueden representar en la visualización, comienza un proceso denominado discretización. El binning agrupa los datos subyacentes en bins y luego refina iterativamente esos bins.

El algoritmo crea tantos cubos como sea posible para crear la mayor granularidad para el objeto visual. Dentro de cada intervalo, el algoritmo encuentra el valor mínimo y máximo de los datos para asegurarse de que los valores importantes y significativos, como los valores atípicos, se capturan y muestran en la visualización. En función de los resultados de la discretización y la evaluación posterior de los datos por Parte de Power BI, la resolución mínima para el eje X del objeto visual se determina para garantizar la granularidad máxima del objeto visual.

Como se mencionó anteriormente, la granularidad mínima para cada serie es de 350 puntos y el máximo es de 3500 para la mayoría de los objetos visuales. Las excepciones se enumeran en los párrafos anteriores.

Cada intervalo se representa mediante dos puntos de datos, que se convierten en puntos de datos representativos del intervalo en la visualización. Los puntos de datos son el valor alto y bajo para ese contenedor. Mediante la selección de los valores altos y bajos, el proceso de discretización garantiza que cualquier valor alto importante o valor bajo significativo se capture y se represente visualmente.

Si eso suena como un montón de análisis para asegurarse de que el valor atípico ocasional sea capturado y se muestre correctamente en la visualización, estás en lo cierto. Esa es la razón exacta del algoritmo y del proceso de discretización.

Información sobre herramientas y muestreo de líneas de alta densidad

Es importante tener en cuenta que este proceso de discretización, que resulta en la captura y visualización del valor mínimo y máximo en un bin específico, podría afectar la forma en que las sugerencias emergentes muestran los datos al pasar el cursor sobre los puntos de datos. Para explicar cómo y por qué ocurre esto, veamos nuestro ejemplo sobre los precios de las acciones.

Supongamos que va a crear una visualización basada en el precio de las acciones y está comparando dos acciones diferentes, ambas utilizan muestreo de alta densidad. Los datos subyacentes de cada serie tienen muchos puntos de datos. Por ejemplo, tal vez capture el precio de las acciones cada segundo del día. El algoritmo de muestreo de líneas de alta densidad realiza la discretización de cada serie independientemente del otro.

Ahora supongamos que la primera acción salta al precio a las 12:02 y, a continuación, retrocede rápidamente 10 segundos más tarde. Es un punto de datos importante. Cuando la discretización se produce para ese stock, el máximo a las 12:02 es un punto de datos representativo para ese contenedor.

Sin embargo, para la segunda acción, las 12:02 no era ni un máximo ni un mínimo en el intervalo que incluía esa hora. El alto y el bajo del intervalo que incluye las 12:02 quizás se produjeron tres minutos más tarde. En esa situación, cuando se crea el gráfico de líneas y se mantiene el puntero en el momento 12:02, se verá un valor en el tooltip para la primera acción. Esto se debe a que saltó a las 12:02 y ese valor se seleccionó como el punto de datos más alto de ese intervalo. Sin embargo, no verá ningún valor en la información sobre herramientas a las 12:02 para el segundo stock. Esto se debe a que la segunda acción no tenía un máximo o un mínimo para el intervalo que incluía 12:02. Por lo tanto, no hay datos que mostrar para el segundo stock a las 12:02 y, por lo tanto, no se muestran datos de información sobre herramientas.

Esta situación se produce con frecuencia con información sobre herramientas. Es probable que los valores máximo y mínimo de un contenedor específico no coincidan perfectamente con los puntos de valor del eje X escalados uniformemente, y la herramienta de información no muestra el valor.

Cómo activar el muestreo de líneas de alta densidad

De forma predeterminada, el algoritmo es Activado. Para cambiar esta configuración, vaya al panel Formato , en la tarjeta General y, a lo largo de la parte inferior, verá el control deslizante de muestreo de alta densidad . Seleccione el control deslizante para activar odesactivar.

Captura de pantalla de un muestreo de línea de alta densidad, que muestra punteros al panel Formato, General y Muestreo de alta densidad.

Consideraciones y limitaciones

El algoritmo para el muestreo de líneas de alta densidad es una mejora importante de Power BI, pero hay algunas consideraciones que debe saber al trabajar con datos y valores de alta densidad.

  • Debido a una mayor granularidad y al proceso de discretización, la información sobre herramientas puede que solo muestre un valor si los datos representativos están alineados con su cursor. Para obtener más información, consulte la sección Información sobre herramientas y muestreo de líneas de alta densidad de este artículo.

  • Cuando el tamaño de un origen de datos general es demasiado grande, el algoritmo elimina la serie (elementos de leyenda) para dar cabida a la restricción máxima de importación de datos.

    • En esta situación, el algoritmo ordena alfabéticamente la serie de leyendas, empezando por la lista de elementos de leyenda en orden alfabético hasta que se alcanza el máximo de importación de datos y no importa más series.
  • Cuando un conjunto de datos subyacente tiene más de 60 series, el algoritmo ordena las series alfabéticamente y elimina aquellas que estén más allá de la posición 60 en el orden alfabético.

  • Si los valores de los datos no son de tipo numérico o de fecha y hora, Power BI no usará el algoritmo y volverá al algoritmo de muestreo anterior y no de alta densidad.

  • No se admite la opción Mostrar elementos sin datos con el algoritmo .

  • El algoritmo no se admite cuando se usa una conexión dinámica a un modelo hospedado en SQL Server Analysis Services versión 2016 o anterior. Se admite en modelos hospedados en Power BI o Azure Analysis Services.