Compartilhar via


Valores do cluster

Os valores de cluster criam grupos automaticamente com valores semelhantes usando um algoritmo de correspondência difusa e mapeiam o valor de cada coluna para o grupo mais bem correspondido. Essa transformação é útil quando você está trabalhando com dados que têm muitas variações diferentes do mesmo valor e você precisa combinar valores em grupos consistentes.

Considere uma tabela de exemplo com uma coluna de ID que contém um conjunto de IDs e uma coluna Person contendo um conjunto de versões ortográficas e maiúsculas dos nomes Miguel, Mike, William e Bill.

Captura de tela da tabela com nove linhas de entradas que contêm várias ortografias e maiúsculas do nome Miguel e William.

Neste exemplo, o resultado que você está procurando é uma tabela com uma nova coluna que mostra os grupos corretos de valores da coluna Person e não todas as diferentes variações das mesmas palavras.

Captura de tela dos valores clusterizados como uma nova coluna chamada Cluster na tabela inicial.

Observação

O recurso valores de cluster está disponível apenas para o Power Query Online.

Criar uma coluna de cluster

Para agrupar valores, primeiro selecione a coluna Pessoa, vá para a guia Adicionar coluna na faixa de opções e, em seguida, selecione a opção Agrupar valores.

Captura de tela do ícone de valores de cluster dentro da guia Adicionar coluna na faixa de opções do Power Query online.

Na caixa de diálogo Valores do Cluster, confirme a coluna que você deseja usar para criar os clusters e insira o novo nome da coluna. Para esse caso, nomeie este novo cluster de colunas.

Captura de tela da janela valores do cluster com a coluna Pessoa selecionada e a nova coluna nomeada como Cluster.

O resultado dessa operação é mostrado na imagem a seguir.

Captura de tela dos valores clusterizados como uma nova coluna chamada Cluster na tabela inicial.

Observação

Para cada cluster de valores, o Power Query escolhe a instância mais frequente da coluna selecionada como a instância "canônica". Se várias instâncias ocorrerem com a mesma frequência, o Power Query escolherá a primeira.

Usando as opções de agrupamento fuzzy

As seguintes opções estão disponíveis para valores de clustering em uma nova coluna:

  • Limite de similaridade (opcional): essa opção indica o quão semelhantes dois valores devem ser agrupados. A configuração mínima de zero (0) faz com que todos os valores sejam agrupados. A configuração máxima de 1 permite apenas que os valores que correspondem exatamente sejam agrupados. O padrão é 0,8.
  • Ignorar maiúsculas e minúsculas: quando as cadeias de caracteres de texto são comparadas, o caso é ignorado. Essa opção está habilitada por padrão.
  • Agrupar combinando partes de texto: o algoritmo tenta combinar partes de texto (como combinar Micro e soft na Microsoft) para agrupar valores.
  • Mostrar pontuações de similaridade: mostra pontuações de similaridade entre os valores de entrada e os valores representativos computados após o clustering difuso.
  • Tabela de transformação (opcional): você pode selecionar uma tabela de transformação que mapeia valores (como mapeamento do MSFT para a Microsoft) para agrupá-los.

Para este exemplo, uma nova tabela de transformação com o nome Minha tabela de transformação é usada para demonstrar como os valores podem ser mapeados. Esta tabela de transformação tem duas colunas:

  • De: O texto a ser pesquisado em sua tabela.
  • Para: a cadeia de caracteres que será usada para substituir a da coluna De.

Captura de tela da tabela mostrando valores de origem de Mike e William, e de destino de Miguel e Bill.

Importante

É importante que a tabela de transformação tenha as mesmas colunas e nomes de colunas, conforme mostrado na imagem anterior (eles precisam ser nomeados "De" e "Para"), caso contrário, o Power Query não reconhecerá essa tabela como uma tabela de transformação e nenhuma transformação ocorrerá.

Usando a consulta criada anteriormente, clique duas vezes na etapa Valores Clusterizados, e, na caixa de diálogo Valores do Cluster, expanda as Opções de Cluster Difuso. Em opções de cluster difuso, habilite a opção Mostrar pontuações de similaridade . Para a tabela de transformação (opcional), selecione a consulta que contém a tabela de transformação.

Captura de tela das opções de cluster difusas com o menu suspenso da tabela de transformação definido como a tabela de transformação de exemplo.

Depois de selecionar a tabela de transformação e habilitar a opção Mostrar pontuações de similaridade , selecione OK. O resultado dessa operação fornece uma tabela que contém as mesmas colunas de ID e Pessoa que a tabela original, mas também inclui duas novas colunas chamadas Cluster e Person_Cluster_Similarity. A coluna Cluster contém as versões dos nomes Miguel, para diferentes variações de Miguel e Mike, e William, para diferentes variações de Bill, Billy e William, todas com a ortografia e capitalização corretas. A coluna Person_Cluster_Similarity contém as pontuações de similaridade para cada um dos nomes.

Captura de tela da tabela que contém as novas colunas Cluster e Person_Cluster_Similarity.

Preceitos da tabela de transformação

Você pode notar que a tabela de transformação na seção anterior parecia indicar que as instâncias de Mike foram alteradas para Miguel e as instâncias de William foram alteradas para Bill. No entanto, na tabela resultante, as ocorrências de Bill e "billy" foram alteradas para William. Na tabela de transformação, em vez de ser um caminho direto de De para Para, a tabela de transformação é simétrica durante a clusterização, o que significa que "mike" é equivalente a "Miguel" e vice-versa. O resultado dos equivalentes dados na tabela de transformação depende das seguintes regras:

  • Se houver uma maioria de valores idênticos, esses valores têm precedência sobre valores não idênticos.
  • Se não houver maioria dos valores, o valor exibido primeiro terá precedência.

Por exemplo, na tabela original usada neste artigo, as versões de Miguel (ambos "miguel" e Miguel) na coluna Person compõem a maioria das instâncias do nome Miguel e Mike. Além disso, o nome Miguel com letras iniciais maiúsculas representa a maior parte do nome Miguel. Assim, associar Miguel e seus derivados e Mike e seus derivados na tabela de transformação resulta no nome Miguel sendo usado na coluna Cluster .

No entanto, para os nomes William, Bill e "billy", não há maioria de valores, pois os três são exclusivos. Como William aparece primeiro, William é usado na coluna Cluster . Se "billy" aparecesse primeiro na tabela, "billy" seria usado na coluna Cluster . Além disso, como não há maioria de valores, usa-se o caso dos nomes individuais. Ou seja, se William for o primeiro, "William" com um "W" maiúsculo será usado como o valor de resultado; se "billy" for o primeiro, "billy" com um "b" minúsculo será usado.