Aplicar técnicas de clustering

4 minutos

O clustering permite que você identifique um segmento (cluster) de dados que são semelhantes entre si, mas diferentes do restante dos dados. O processo de clustering é diferente do processo de agrupamento, que você aprendeu na unidade anterior.

O recurso de clustering do Power BI permite localizar rapidamente grupos de pontos de dados semelhantes em um subconjunto de dados. Ele analisa seu modelo semântico para identificar semelhanças e diferenças nos valores de atributo e, em seguida, separa os dados com semelhanças em um subconjunto de dados. Esses subconjuntos de dados são chamados de clusters.

Por exemplo, talvez você queira procurar padrões em seus dados de vendas, como o comportamento geral dos clientes. Você pode segmentar os clientes em clusters de acordo com suas semelhanças, como idade ou localização.

Comece adicionando a visualização de gráfico de dispersão ao seu relatório e adicione os campos necessários ao visual. Neste exemplo, você adiciona o campo Order Qty ao eixo A, o campo Sales ao eixo Y e o campo Unit Price a Valores.

A imagem a seguir mostra um volume de dados considerável no gráfico de dispersão, o que torna difícil identificar grupos naturais.

Para aplicar o clustering ao seu gráfico de dispersão, selecione Mais opções (…) no canto superior direito do visual e, em seguida, Encontrar clusters automaticamente.

Na janela Clusters, você pode editar o nome, o campo e a descrição padrão, se necessário. Contudo, neste exemplo, você deseja alterar o número de clusters. A imagem a seguir mostra que a caixa Número de clusters está em branco por padrão, o que significa que o Power BI localiza automaticamente o número de clusters que considera fazer mais sentido com seus dados.

Insira o número de clusters que você deseja (3) na caixa e selecione OK. O Power BI executa o algoritmo de clustering e cria um campo categórico que contém grupos de clusters diferentes. Agora, ao observar o visual, é possível ver claramente os clusters presentes nos seus dados e seguir com a análise sobre eles.

O novo campo de cluster é adicionado à caixa Legenda do gráfico de dispersão, que agora você pode usar como uma fonte de realce cruzado como qualquer outro campo Legenda. O novo campo de cluster é adicionado ao modelo de dados e você pode encontrá-lo no painel Dados.

Se você quiser editar o cluster, clique com o botão direito do mouse no campo de cluster e selecione Editar clusters.

No exemplo anterior, quando aplicou o clustering ao gráfico de dispersão, você podia usar apenas duas medidas. Se desejar localizar clusters usando mais de duas medidas, você poderá usar um visual de tabela. Nesse caso, adicione todos os campos que deseja usar e execute o algoritmo de clustering usando o mesmo processo.

Comentários

Esta página foi útil?