Compartilhar via


Explorando e limpando dados

A preparação de dados é muito mais do que a limpeza de dados. Lembre-se de que a forma como os dados são preparados também afeta a forma como os resultados são interpretados no final. A preparação de dados envolve estas tarefas:

  • Explorando e verificando a distribuição de dados.

  • Limpar registros inválidos e escolher colunas para mineração de dados.

  • Manipulando nulos adequadamente.

  • Agrupamento de valores, ou agregação de valores por intervalos de tempo diferentes.

  • Adicionando rótulos para melhorar a usabilidade dos resultados.

  • Convertendo tipos de dados ou categorizando valores quando necessário para análise.

Se você for novo na modelagem de dados, recomendamos que você leia o tópico relacionado, Lista de verificação de preparação para mineração de dados.

Ferramentas de Preparação de Dados

Os Suplementos de Mineração de Dados do Office incluem as seguintes ferramentas para limpeza e preparação de dados:

Explorar dados

Use o Assistente para Explorar Dados para estas tarefas de preparação de dados:

  • Visualizar seus dados e identificar erros que devem ser corrigidos antes da análise.

  • Colete informações estatísticas úteis para entender o equilíbrio de dados e as tarefas de limpeza necessárias.

  • Identifique colunas úteis para análise e planeje a fase de modelagem de dados.

Explorar dados (suplementos de mineração de dados do SQL Server).

Detectar e manipular exceções

O assistente do outliers gera gráficos da distribuição de valores nos seus dados e ajuda você a remover valores atípicos. Use a ferramenta Outliers para as seguintes tarefas de preparação de dados:

  • Determine se os valores individuais são confiáveis, com base nos padrões encontrados nos dados.

  • Examine valores incomuns e tome medidas excluindo-os ou substituindo-os.

  • Definir um modelo para um intervalo específico de valores. Por exemplo, se você souber que tem exceções em um repositório específico, poderá eliminar esse valor e obter um modelo que preveja melhor outros repositórios.

Exceções (suplementos de mineração de dados do SQL Server).

Renomear e Agrupar Dados

O assistente de renomeação agrupa dados por valores para que você possa alterar os rótulos dos dados. Use a ferramenta Renomear para estas tarefas de preparação de dados:

  • Alterar códigos numéricos usados nos resultados da pesquisa para uma descrição de texto do que o código numérico significa.

    Por exemplo, você pode substituir entradas de dados como Gênero = 1 por Gênero = Feminino.

  • Classifique dados, criando grupos para representar intervalos de números.

    Por exemplo, talvez você queira substituir uma coluna renda de números por rótulos como Renda - Moderada e Renda - Alta.

  • Agrupar valores discretos em categorias.

    Por exemplo, se você tiver muitos produtos individuais para detectar um padrão entre as compras, poderá tentar atribuir produtos em categorias mais amplas.

Relabel (suplementos de mineração de dados do SQL Server)

Limpar dados

A limpeza de dados abrange uma ampla gama de atividades, a maioria das quais é suportada pelos complementos.

  • Identifique nulos e determine se eles devem ser alterados para um valor real ou tratados como Missing valores.

  • Detecte valores ausentes e remova-os ou impute um valor apropriado, como uma média, nulo ou outro valor.

Explorar dados (suplementos de mineração de dados do SQL Server)

Re-etiquetagem (complementos de mineração de dados do SQL Server)

Exemplo de Preenchimento

Dados de Exemplo

O Assistente de Dados de Exemplo fornece dois métodos para criar conjuntos de dados equilibrados para treinamento de modelos e testes.

  • Amostragem aleatória. Use essa opção para extrair um conjunto representativo de dados de um conjunto de dados maior, para uso em treinamento ou teste. Os Suplementos de Mineração de Dados usam amostragem estratificada para garantir que um conjunto equilibrado de valores seja obtido para cada variável amostrada.

  • Sobreamostragem. Use esta opção quando você tiver menos dados do que gostaria para um resultado e precisar dar mais importância a esses dados. Por exemplo, a fraude pode ser relativamente rara, mas você pode sobrecarregar casos envolvendo fraudes para obter dados adequados para modelagem.

Dados de exemplo (suplementos de mineração de dados do SQL Server).

Consulte Também

Criando um modelo de mineração de dados
Validando modelos e usando modelos de previsão (suplementos de mineração de dados para Excel)
Implantando e dimensionando modelos de mineração (suplementos de mineração de dados para Excel)