Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O algoritmo de amostragem de dados no Power BI melhora os visuais que amostram dados de alta densidade. Por exemplo, você pode criar um gráfico de linhas com base nos resultados de vendas de suas lojas de varejo, cada loja com mais de 10.000 recibos de vendas por ano. Um gráfico de linhas dessas informações de vendas amostraria dados de cada loja e criaria um gráfico de linhas multissérie, representando os dados subjacentes. Selecione uma representação significativa desses dados para ilustrar como as vendas variam ao longo do tempo. Essa prática é comum na visualização de dados de alta densidade. Os detalhes da amostragem de dados de alta densidade são descritos neste artigo.
Observação
O algoritmo de amostragem de alta densidade descrito neste artigo está disponível no Power BI Desktop e no serviço do Power BI.
Como funciona a amostragem de linha de alta densidade
Anteriormente, o Power BI selecionava uma coleção de pontos de dados de exemplo em toda a gama de dados subjacentes de forma determinística. Por exemplo, com dados de alta densidade em um visual que abrange um ano civil, pode haver 350 pontos de dados de exemplo exibidos no visual, cada um deles selecionado para garantir que todo o intervalo de dados tenha sido representado no visual. Para ajudar a entender como isso acontece, imagine plotar um preço das ações durante um período de um ano e selecionar 365 pontos de dados para criar um visual de gráfico de linhas. Trata-se de um ponto de dados por dia.
Nessa situação, o preço das ações pode ter muitos valores dentro de cada dia. Claro, há uma alta diária e baixa, mas isso pode ocorrer a qualquer momento durante o dia em que o mercado de ações está aberto. Para amostragem de linhas de alta densidade, se a amostra de dados subjacente fosse realizada às 10h30 e às 12h todos os dias, você obteria um instantâneo representativo dos dados subjacentes, como o preço às 10h30 e às 12h. No entanto, o instantâneo pode não capturar a alta real e a baixa do preço das ações para esse ponto de dados representativo naquele dia. Nessa situação e em outros, a amostragem representa os dados subjacentes, mas nem sempre captura pontos importantes, que nesse caso seriam altos e baixos diários dos preços das ações.
Por definição, os dados de alta densidade são amostrados para criar as visualizações de forma razoavelmente rápida que são responsivas à interatividade. Muitos pontos de dados em um visual podem sobrecarregá-lo e prejudicar a visibilidade das tendências. Como os dados são amostrados é o que impulsiona a criação do algoritmo de amostragem para fornecer a melhor experiência de visualização. No Power BI Desktop, o algoritmo fornece a melhor combinação de capacidade de resposta, representação e preservação clara de pontos importantes em cada fatia de tempo.
Como funciona o novo algoritmo de amostragem de linha
O algoritmo para amostragem de linha de alta densidade está disponível para gráfico de linha e gráfico de área com um eixo x contínuo.
Para um visual de alta densidade, o Power BI corta seus dados de forma inteligente em partes de alta resolução e escolhe pontos importantes para representar cada parte. Esse processo de fatiamento de dados de alta resolução é ajustado para garantir que o gráfico resultante seja visualmente indistinguível de renderizar todos os pontos de dados subjacentes, mas seja mais rápido e interativo.
Valores mínimos e máximos para gráficos de linha de alta densidade
Para qualquer visualização, as seguintes limitações se aplicam:
3.500 é o número máximo de pontos de dados exibidos na maioria dos visuais, independentemente do número de pontos de dados ou séries subjacentes, confira exceções na lista a seguir. Por exemplo, se você tiver 10 séries com 350 pontos de dados cada, o visual atingirá seu limite máximo de pontos de dados gerais. Se você tiver uma série, ela poderá conter até 3.500 pontos de dados, caso o algoritmo considere essa a melhor amostragem para os dados subjacentes.
Há um máximo de 60 séries para qualquer visual. Se você tiver mais de 60 séries, divida os dados e crie vários visuais com 60 ou menos séries cada. É uma boa prática usar uma segmentação para mostrar apenas segmentos dos dados, mas somente para determinadas séries. Por exemplo, se você estiver exibindo todas as subcategorias na legenda, poderá usar um fatiador para filtrar pela categoria geral na mesma página de relatório.
O número máximo de limites de dados é maior para os seguintes tipos visuais, que são exceções ao limite de 3.500 pontos de dados:
- 150.000 pontos de dados máximos para visuais R.
- 30.000 pontos de dados para visuais do Azure Map.
- 10.000 pontos de dados para algumas configurações de gráficos de dispersão (gráficos de dispersão têm padrão de 3500).
- 3.500 para todos os outros elementos visuais que utilizam amostragem de alta densidade. Alguns outros visuais podem visualizar mais dados, mas não usarão amostragem.
Esses parâmetros garantem que os visuais no Power BI Desktop sejam renderizados rapidamente, sejam responsivos à interação com os usuários e não resultem em sobrecarga computacional indevida no computador que renderiza o visual.
Avaliar pontos de dados representativos para visualizações de alta densidade de linhas
Quando o número de pontos de dados subjacentes excede o máximo de pontos de dados que podem ser representados no visual, um processo chamado binning começa. O binning agrupa os dados subjacentes em grupos chamados bins e, em seguida, aperfeiçoa iterativamente esses bins.
O algoritmo cria o máximo de compartimentos possível para criar a maior granularidade para o visual. Em cada compartimento, o algoritmo localiza o valor de dados mínimo e máximo para garantir que valores importantes e significativos, como exceções, sejam capturados e exibidos no visual. Com base nos resultados do binning e na avaliação subsequente dos dados pelo Power BI, a resolução mínima do eixo x para o visual é determinada para garantir a granularidade máxima para o visual.
Conforme mencionado anteriormente, a granularidade mínima para cada série é de 350 pontos e o máximo é de 3.500 para a maioria dos visuais. As exceções são listadas nos parágrafos anteriores.
Cada compartimento é representado por dois pontos de dados, que se tornam os pontos de dados representativos do compartimento no visual. Os pontos de dados são o valor alto e baixo para essa lixeira. Ao selecionar o alto e o baixo, o processo de binagem garante que qualquer valor alto importante ou valor baixo significativo seja capturado e renderizado no visual.
Se isso soa como muita análise para garantir que a exceção ocasional seja capturada e exibida corretamente no visual, você está correto. Essa é a razão exata para o algoritmo e o processo de binagem.
Dicas sobre ferramentas e amostragem de linhas de alta densidade
É importante observar que esse processo de binagem, que resulta na captura e exibição dos valores mínimo e máximo em um determinado intervalo, pode afetar a forma como as dicas de ferramenta exibem os dados quando o mouse é passado sobre os pontos de dados. Para explicar como e por que isso ocorre, vamos revisitar nosso exemplo sobre os preços das ações.
Digamos que você esteja criando um visual com base no preço das ações e comparando duas ações diferentes, ambas usando amostragem de alta densidade. Os dados subjacentes de cada série têm muitos pontos de dados. Por exemplo, talvez você capture o preço das ações a cada segundo do dia. O algoritmo de amostragem de linha de alta densidade executa o binning para cada série independentemente das demais.
Agora vamos dizer que a primeira ação sobe de preço às 12:02, e rapidamente volta a cair em 10 segundos depois. Esse é um ponto de dados importante. Quando ocorre binning para essa ação, a alta às 12:02 é um ponto de dados representativo para esse conjunto.
No entanto, para a segunda ação, 12:02 não foi uma alta nem uma baixa na faixa de tempo que incluiu esse momento. Talvez a alta e a baixa do intervalo que inclui 12:02 ocorreram três minutos depois. Nessa situação, quando o gráfico de linhas é criado e você passa o mouse sobre 12:02, você vê um valor no tooltip para a primeira ação. Isso ocorre porque ele teve um aumento às 12:02 e esse valor foi selecionado como o maior ponto de dados desse intervalo. No entanto, você não verá nenhum valor no tooltip às 12:02 para a segunda ação. Isso porque a segunda ação não tinha uma alta ou uma baixa para o intervalo que incluía 12:02. Portanto, não há dados a serem exibidos para o segundo estoque às 12:02 e, portanto, nenhum dado de dica de ferramenta é exibido.
Essa situação ocorre com frequência com dicas de ferramentas. Os valores altos e baixos para uma faixa específica provavelmente não corresponderão perfeitamente aos pontos de valor escalonados uniformemente no eixo x, e o tooltip não exibe esse valor.
Como ativar a amostragem de linha de alta densidade
Por padrão, o algoritmo é Ativado. Para alterar essa configuração, vá para o painel Formatação , no cartão Geral , e ao longo da parte inferior, você verá o controle deslizante de amostragem de alta densidade . Selecione o controle deslizante para ativar ou desativar.
Considerações e limitações
O algoritmo para amostragem de linha de alta densidade é uma melhoria importante para o Power BI, mas há algumas considerações que você precisa saber ao trabalhar com dados e valores de alta densidade.
Devido ao aumento da granularidade e do processo de binagem, as dicas de ferramenta só poderão mostrar um valor se os dados representativos estiverem alinhados com o cursor. Para obter mais informações, consulte a seção dicas de ferramentas e amostragem de linha de alta densidade neste artigo.
Quando o tamanho de uma fonte de dados geral é muito grande, o algoritmo elimina séries (elementos de legenda) para acomodar a restrição máxima de importação de dados.
- Nessa situação, o algoritmo ordena a série de legendas em ordem alfabética, começando do topo da lista de elementos de legenda organizada alfabeticamente, até que o máximo de importação de dados seja atingido, não importando mais séries além desse ponto.
Quando um conjunto de dados subjacente tem mais de 60 séries, o número máximo de séries, o algoritmo ordena a série em ordem alfabética e elimina séries além da 60ª série ordenada alfabética.
Se os valores nos dados não forem do tipo numérico ou data/hora, o Power BI não usará o algoritmo e será revertido para o algoritmo de amostragem anterior, não de alta densidade.
A configuração Mostrar itens sem dados não é suportada com o algoritmo.
Não há suporte para o algoritmo ao usar uma conexão dinâmica com um modelo hospedado no SQL Server Analysis Services versão 2016 ou anterior. Ele tem suporte em modelos hospedados no Power BI ou no Azure Analysis Services.