Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os valores de cluster criam grupos automaticamente com valores semelhantes usando um algoritmo de correspondência difusa e mapeiam o valor de cada coluna para o grupo mais bem correspondido. Essa transformação é útil quando você está trabalhando com dados que têm muitas variações diferentes do mesmo valor e você precisa combinar valores em grupos consistentes.
Considere uma tabela de exemplo com uma coluna de ID que contém um conjunto de IDs e uma coluna Person contendo um conjunto de versões ortográficas e maiúsculas dos nomes Miguel, Mike, William e Bill.
Neste exemplo, o resultado que você está procurando é uma tabela com uma nova coluna que mostra os grupos corretos de valores da coluna Person e não todas as diferentes variações das mesmas palavras.
Observação
O recurso valores de cluster está disponível apenas para o Power Query Online.
Criar uma coluna de cluster
Para agrupar valores, primeiro selecione a coluna Pessoa, vá para a guia Adicionar coluna na faixa de opções e, em seguida, selecione a opção Agrupar valores.
Na caixa de diálogo Valores do Cluster, confirme a coluna que você deseja usar para criar os clusters e insira o novo nome da coluna. Para esse caso, nomeie este novo cluster de colunas.
O resultado dessa operação é mostrado na imagem a seguir.
Observação
Para cada cluster de valores, o Power Query escolhe a instância mais frequente da coluna selecionada como a instância "canônica". Se várias instâncias ocorrerem com a mesma frequência, o Power Query escolherá a primeira.
Usando as opções de agrupamento fuzzy
As seguintes opções estão disponíveis para valores de clustering em uma nova coluna:
- Limite de similaridade (opcional): essa opção indica o quão semelhantes dois valores devem ser agrupados. A configuração mínima de zero (0) faz com que todos os valores sejam agrupados. A configuração máxima de 1 permite apenas que os valores que correspondem exatamente sejam agrupados. O padrão é 0,8.
- Ignorar maiúsculas e minúsculas: quando as cadeias de caracteres de texto são comparadas, o caso é ignorado. Essa opção está habilitada por padrão.
- Agrupar combinando partes de texto: o algoritmo tenta combinar partes de texto (como combinar Micro e soft na Microsoft) para agrupar valores.
- Mostrar pontuações de similaridade: mostra pontuações de similaridade entre os valores de entrada e os valores representativos computados após o clustering difuso.
- Tabela de transformação (opcional): você pode selecionar uma tabela de transformação que mapeia valores (como mapeamento do MSFT para a Microsoft) para agrupá-los.
Para este exemplo, uma nova tabela de transformação com o nome Minha tabela de transformação é usada para demonstrar como os valores podem ser mapeados. Esta tabela de transformação tem duas colunas:
- De: O texto a ser pesquisado em sua tabela.
- Para: a cadeia de caracteres que será usada para substituir a da coluna De.
Importante
É importante que a tabela de transformação tenha as mesmas colunas e nomes de colunas, conforme mostrado na imagem anterior (eles precisam ser nomeados "De" e "Para"), caso contrário, o Power Query não reconhecerá essa tabela como uma tabela de transformação e nenhuma transformação ocorrerá.
Usando a consulta criada anteriormente, clique duas vezes na etapa Valores Clusterizados, e, na caixa de diálogo Valores do Cluster, expanda as Opções de Cluster Difuso. Em opções de cluster difuso, habilite a opção Mostrar pontuações de similaridade . Para a tabela de transformação (opcional), selecione a consulta que contém a tabela de transformação.
Depois de selecionar a tabela de transformação e habilitar a opção Mostrar pontuações de similaridade , selecione OK. O resultado dessa operação fornece uma tabela que contém as mesmas colunas de ID e Pessoa que a tabela original, mas também inclui duas novas colunas chamadas Cluster e Person_Cluster_Similarity. A coluna Cluster contém as versões dos nomes Miguel, para diferentes variações de Miguel e Mike, e William, para diferentes variações de Bill, Billy e William, todas com a ortografia e capitalização corretas. A coluna Person_Cluster_Similarity contém as pontuações de similaridade para cada um dos nomes.
Preceitos da tabela de transformação
Você pode notar que a tabela de transformação na seção anterior parecia indicar que as instâncias de Mike foram alteradas para Miguel e as instâncias de William foram alteradas para Bill. No entanto, na tabela resultante, as ocorrências de Bill e "billy" foram alteradas para William. Na tabela de transformação, em vez de ser um caminho direto de De para Para, a tabela de transformação é simétrica durante a clusterização, o que significa que "mike" é equivalente a "Miguel" e vice-versa. O resultado dos equivalentes dados na tabela de transformação depende das seguintes regras:
- Se houver uma maioria de valores idênticos, esses valores têm precedência sobre valores não idênticos.
- Se não houver maioria dos valores, o valor exibido primeiro terá precedência.
Por exemplo, na tabela original usada neste artigo, as versões de Miguel (ambos "miguel" e Miguel) na coluna Person compõem a maioria das instâncias do nome Miguel e Mike. Além disso, o nome Miguel com letras iniciais maiúsculas representa a maior parte do nome Miguel. Assim, associar Miguel e seus derivados e Mike e seus derivados na tabela de transformação resulta no nome Miguel sendo usado na coluna Cluster .
No entanto, para os nomes William, Bill e "billy", não há maioria de valores, pois os três são exclusivos. Como William aparece primeiro, William é usado na coluna Cluster . Se "billy" aparecesse primeiro na tabela, "billy" seria usado na coluna Cluster . Além disso, como não há maioria de valores, usa-se o caso dos nomes individuais. Ou seja, se William for o primeiro, "William" com um "W" maiúsculo será usado como o valor de resultado; se "billy" for o primeiro, "billy" com um "b" minúsculo será usado.