Formatar os dados iniciais
O Editor do Power Query no Power BI Desktop permite que você formate (transforme) seus dados importados. Você pode realizar ações como renomear colunas ou tabelas, alterar o texto para números, remover linhas, definir a primeira linha como cabeçalho, entre outras. Tudo sem atualizar a fonte de dados original. É importante formatar seus dados para garantir que eles atendam às suas necessidades e sejam adequados para uso em relatórios.
Você carregou dados brutos de vendas de duas fontes em um modelo do Power BI. Alguns dos dados vieram de um arquivo .csv criado manualmente no Microsoft Excel pela equipe de Vendas. Os outros dados foram carregados por meio de uma conexão com o sistema ERP (Planejamento de Recursos Empresariais) da sua organização. Agora, ao observar os dados no Power BI Desktop, você percebe que eles estão desorganizados; alguns dados são desnecessários e outros dos quais você precisa estão no formato incorreto.
Você precisa usar o Editor do Power Query para limpar e formatar esses dados antes de começar a criar relatórios.
Introdução ao Editor do Power Query
Para começar a formatar os dados, abra o Editor do Power Query selecionando a opção Transformar dados na guia Página Inicial do Power BI Desktop.
No Editor do Power Query, os dados da consulta selecionada são exibidos no meio da tela e, no lado esquerdo, o painel Consultas lista as consultas disponíveis (tabelas).
Ao trabalhar no Editor do Power Query, todas as etapas que você executa para formatar seus dados são registradas. Assim, toda vez que a consulta se conecta à fonte de dados, ela aplica automaticamente as etapas, de modo que os dados sempre sejam formatados da maneira que você especificou. O Editor do Power Query modifica apenas uma exibição dos dados, para que você possa ter certeza de que a fonte de dados original permanece inalterada. Você pode ver uma lista das etapas no lado direito da tela, no painel Configurações da Consulta, ao lado das propriedades da consulta.
A faixa de opções do Editor do Power Query inclui muitos botões que você pode usar para selecionar, exibir e formatar seus dados.
Para saber mais sobre os recursos e as funções disponíveis, consulte A faixa de opções de consulta.
Observação
No Editor do Power Query, os menus de contexto do botão direito do mouse e a guia Transformar, na faixa de opções, fornecem muitas das mesmas opções.
Identificar cabeçalhos e nomes de colunas
A primeira etapa para formatar os dados iniciais é identificar os cabeçalhos e os nomes das colunas nos dados e, em seguida, avaliar onde eles estão localizados para garantir que estejam no lugar certo.
Na captura de tela a seguir, os dados de origem do arquivo csv para SalesTarget (exemplo não fornecido) tinham um destino categorizado por produtos e uma subcategoria dividida por meses, ambos organizados em colunas.
No entanto, você percebe que os dados não foram importados conforme o esperado.
Consequentemente, os dados são difíceis de serem lidos. Ocorreu um problema com os dados no estado atual, pois os cabeçalhos das colunas estão em linhas diferentes (marcadas em vermelho) e várias colunas têm nomes pouco descritivos, como Column1, Column2 e assim por diante.
Identificando o local em que os cabeçalhos e os nomes das colunas se encontram, você poderá fazer alterações para reorganizar os dados.
Promover cabeçalhos
Quando uma tabela é criada no Power BI Desktop, o Editor do Power Query supõe que todos os dados pertençam às linhas da tabela. No entanto, uma fonte de dados pode ter uma primeira linha que contém nomes de coluna, como ocorreu no exemplo anterior de SalesTarget. Para corrigir essa imprecisão, você precisa promover a primeira linha da tabela para cabeçalhos de coluna.
Você pode promover cabeçalhos de duas maneiras: selecionando a opção Usar Primeira Linha como Cabeçalhos na guia Página Inicial ou selecionando o botão suspenso ao lado de Column1 e, em seguida, selecionando Usar Primeira Linha como Cabeçalhos.
A seguinte imagem ilustra como o recurso Usar Primeira Linha como Cabeçalho afeta os dados:
Renomear colunas
A próxima etapa na formação dos dados é examinar os cabeçalhos das colunas. Talvez você descubra que uma ou mais colunas têm cabeçalhos incorretos, um cabeçalho tem um erro ortográfico ou a convenção de nomenclatura do cabeçalho não é consistente nem amigável.
Consulte a captura de tela anterior, que mostra o impacto do recurso Usar Primeira Linha como Cabeçalhos. Observe que a coluna que contém os dados do Nome da subcategoria agora tem Mês como seu cabeçalho de coluna. Esse cabeçalho de coluna está incorreto e, portanto, precisa ser renomeado.
Você pode renomear os cabeçalhos de coluna de duas maneiras. Uma abordagem é clicar com o botão direito do mouse no cabeçalho, selecionar Renomear, editar o nome e pressionar Enter. Como alternativa, você pode clicar duas vezes no cabeçalho da coluna e substituir o nome incorreto pelo correto.
Você também pode resolver esse problema removendo (ignorando) as duas primeiras linhas e renomeando as colunas com o nome correto.
Remover linhas superiores
Ao formatar os dados, talvez seja necessário remover algumas das linhas superiores, por exemplo, se elas estiverem em branco ou se contiverem dados desnecessários para os relatórios.
Continuando com o exemplo de SalesTarget, observe que a primeira linha está em branco (não tem dados) e a segunda linha tem dados que não são mais necessários.
Para remover essas linhas em excesso, selecione Remover Linhas>Remover Linhas Superiores na guia Página Inicial.
Remover colunas
Uma etapa fundamental no processo de formatação de dados é remover as colunas desnecessárias. É muito melhor remover as colunas o quanto antes. Uma forma de remover as colunas é limitar a coluna quando você obtém dados da fonte de dados. Por exemplo, se você estiver extraindo dados de um banco de dados relacional usando o SQL, o ideal será limitar a coluna extraída usando uma lista de colunas na instrução SELECT.
A remoção de colunas é melhor na fase inicial do processo, especialmente quando você estabeleceu relacionamentos entre as tabelas. A remoção de colunas desnecessárias ajudará você a se concentrar nos dados necessários e a melhorar o desempenho geral dos modelos semânticos e relatórios do Power BI Desktop.
Examine cada coluna e reflita se realmente precisa dos dados que ela contém. Se você não planeja usar esses dados em um relatório, a coluna não agrega valor ao seu modelo semântico. Portanto, a coluna deverá ser removida. Você sempre poderá adicionar a coluna mais tarde, caso os requisitos mudem ao longo do tempo.
Você pode remover colunas de duas maneiras. O primeiro método é selecionar as colunas que deseja remover e, na guia Página Inicial, selecionar Remover Colunas.
Como alternativa, você pode selecionar as colunas que deseja manter e, na guia Página Inicial, selecionar Remover Colunas>Remover Outras Colunas.
Transformar colunas em linhas
A transformação de colunas em linhas é um recurso útil do Power BI. Você pode usar esse recurso com os dados de qualquer fonte de dados, mas o usará com mais frequência ao importar dados do Excel. O exemplo a seguir mostra um documento de exemplo do Excel com dados de vendas.
Embora os dados possam fazer sentido inicialmente, pode ser difícil criar um total de todas as vendas combinadas de 2018 e 2019. Sua meta seria usar esses dados no Power BI com três colunas: Month, Year e SalesAmount.
Quando você importar os dados no Power Query, eles se parecerão com a imagem a seguir.
Em seguida, renomeie a primeira coluna como Month. Essa coluna foi rotulada incorretamente, pois esse cabeçalho no Excel estava rotulando as colunas 2018 e 2019. Realce as colunas 2018 e 2019, selecione a guia Transformar no Power Query e selecione Transformar colunas em linhas.
Você pode renomear a coluna Attribute como Year e a coluna Value como SalesAmount.
Transformar colunas em linhas simplifica o processo de criação de medidas DAX nos dados posteriormente. Ao concluir esse processo, você criou uma forma mais simples de dividir os dados nas colunas Year e Month.
Dinamizar colunas
Se os dados que você estiver formatando forem simples (em outras palavras, haverá muitos detalhes, mas não estarão organizados nem agrupados), a falta de estrutura poderá complicar sua capacidade de identificar padrões nos dados.
Você pode usar o recurso Dinamizar Coluna para converter seus dados simples em uma tabela que contenha um valor agregado para cada valor exclusivo em uma coluna. Por exemplo, talvez seja conveniente usar esse recurso para resumir dados usando diferentes funções matemáticas, como Contagem, Mínimo, Máximo, Mediana, Média ou Soma.
No exemplo de SalesTarget, você pode dinamizar as colunas para obter a quantidade de subcategorias de produto em cada categoria de produto.
Na guia Transformar, selecione Transformar > Dinamizar Colunas.
Na janela Dinamizar Coluna exibida, selecione uma coluna na lista Coluna de Valores, como Subcategory name. Expanda as opções avançadas e selecione uma opção na lista Função de Agregação de Valor, como Contagem (Todas) e selecione OK.
A imagem a seguir ilustra como o recurso Dinamizar Coluna altera a forma como os dados são organizados.
O Editor do Power Query registra todas as etapas que você executa para formatar seus dados, e a lista de etapas é mostrada no painel Configurações de Consulta. Se você tiver feito todas as alterações necessárias, selecione Fechar e Aplicar para fechar o Editor do Power Query e aplicar as alterações ao seu modelo semântico. No entanto, antes de selecionar Fechar e Aplicar, você pode executar outras etapas para limpar e transformar seus dados no Editor do Power Query. Essas etapas adicionais serão abordadas mais adiante neste módulo.