Compartilhar via


Escolhendo dados para mineração de dados

Ao iniciar a mineração de dados, você pode perguntar "Quantos dados eu preciso?" ou "Há requisitos especiais sobre os quais devo saber ao limpar ou formatar meus dados?"

Em particular, pessoas que são novas em mineração de dados geralmente encontram problemas com os dados do Excel, como a necessidade de formatar dados de forma consistente nas colunas, limpar valores ausentes ou agrupar números em intervalos. Esta seção também lista os requisitos de dados para tipos específicos de modelos.

Escolhendo dados

Problemas comuns de dados

Outros requisitos de dados

Escolhendo dados

A seleção dos dados usados para análise talvez seja a parte mais importante do processo de mineração de dados, mais ainda do que a seleção de um algoritmo. O motivo é que a mineração de dados geralmente não é controlada por hipóteses, mas controlada por dados. Em vez de selecionar e testar variáveis com antecedência, como você pode fazer com a modelagem estatística tradicional, a mineração de dados pode pegar dados e descobrir novas correlações (ou não descobrir nenhum padrão). A qualidade e a quantidade de seus dados podem ter um efeito significativo nos resultados.

Em geral, observe as seguintes regras:

  • Obtenha o máximo de dados limpos possível.

  • Realize uma análise de dados antes de testar qualquer modelo. Você precisa entender seus dados antes de poder derivar o significado dele. No mínimo:

    1. Use as ferramentas nos suplementos para localizar seus valores máximos e mínimos, os valores mais comuns e os valores médios.

    2. Preencha os valores ausentes. Os suplementos (bem como alguns algoritmos) fornecem ferramentas para imputar valores ausentes.

    3. Corrija dados incorretos sempre que possível. Os projetos de mineração de dados geralmente servem como o impulso para novas iniciativas de qualidade de dados.

  • Tente criar um modelo de teste e encontre problemas de dados dessa maneira. Ao examinar os resultados, você pode descobrir, por exemplo, que as projeções de vendas são baseadas em dados anômalos devido a um erro de conversão de moeda.

  • Tente converter seus dados em formatos diferentes ou tentar agrupar números. Os padrões geralmente surgem quando os dados são transformados.

    Por exemplo, o nível de serviço no call center pode ser afetado pelo dia da semana, o que você não veria se estivesse usando apenas os valores de datetime. As previsões podem ser melhores quando geradas em ciclos de 10 dias em vez de unidades semanais ou diárias.

  • Coloque números em compartimentos apropriados, para reduzir o número de valores possíveis para análise.

  • Crie várias versões de seus dados e crie vários modelos.

Para obter dicas adicionais sobre como selecionar, modificar e examinar dados, consulte Checklist of Preparation for Data Mining.

De quantos dados preciso?

Uma regra geral é nunca ter menos de 50 a 100 linhas de dados para os tipos e cenários de modelos mais simples. Por exemplo, se você estiver prevendo um único atributo usando um modelo Naïve Bayes e o conjunto de dados estiver bem formado, poderá gerar previsões bastante precisas usando 50 a 100 linhas de dados.

Para modelos de associação, você normalmente precisa de muito mais dados – mil linhas podem não ser suficientes se você estiver analisando muitos atributos, como associações entre produtos. Se o conjunto de dados for muito grande ou muito pequeno, às vezes você poderá obter melhores resultados recolhendo linhas em categorias. Por exemplo, em vez de analisar associações entre produtos individuais, você pode categorizar os produtos.

Se você tiver um conjunto de dados de um tamanho razoável, concentre-se mais na qualidade dos dados em vez de adicionar mais e mais dados. Após um ponto, todos os padrões que são estatisticamente válidos serão encontrados e adicionar mais dados não melhora sua validade. Por outro lado, à medida que você adiciona mais dados às vezes, você pode introduzir correlações acidentais.

Números discretos versus contínuos

Uma coluna discreta contém um número finito de valores. Por exemplo, o texto é sempre tratado como valores discretos.

Há alguns atributos importantes para valores discretos. Por exemplo, se você tratar os números como discretos, nenhuma ordem será implícita entre eles e você não poderá fazer a média ou somar os números. Códigos de área telefônica são um bom exemplo de dados numéricos discretos que você nunca usaria para executar operações matemáticas.

Valores discretos às vezes são chamados de valores categóricos, pois você pode agrupar um conjunto de dados por eles, enquanto não é possível com números organizados em uma série infinita.

Você também pode decidir tratar os números como discretos quando os valores estiverem claramente separados e não houver nenhuma possibilidade de valores fracionários ou valores fracionários não forem úteis.

Dados numéricos contínuos podem conter um número infinito de valores fracionários. Uma coluna de renda é um exemplo de uma coluna de atributo contínua. Se você especificar que uma coluna é numérica, cada valor nessa coluna deve ser um número, exceto para nulos. Observe que, no Excel, marcadores de data/hora e qualquer outra representação de data/hora capaz de ser convertida em tipos de dados do SQL Server podem ser considerados.

Convertendo números em variáveis categóricas

Só porque uma coluna contém números não significa que você deve tratá-los como números contínuos. A discretização oferece muitas vantagens para análise. Uma delas é que o espaço problemático é reduzido. Outra é que, às vezes, os números não são a maneira apropriada de expressar um resultado.

Por exemplo, o número de filhos por domicílio pode ser tratado como um valor contínuo ou discreto. Como não é possível ter 2,5 filhos no domicílio, e os domicílios com 3 ou mais filhos podem se comportar de forma muito diferente dos domicílios com 2 filhos, você pode obter melhores resultados tratando esse número como uma categoria. No entanto, se você estiver criando um modelo de regressão ou de outra forma exigir uma média (como 1,357 filhos por domicílio), você usará um tipo de dados de número contínuo.

Não é possível criar um modelo de mineração que tenha dados contínuos e, em seguida, tratar a coluna como discreta posteriormente. Os dois conjuntos de dados devem ser processados de forma diferente e são tratados no back-end como estruturas de mineração separadas. Se você não tiver certeza da maneira correta de lidar com os dados, deverá criar modelos separados que lidam com os dados de forma diferente. De qualquer forma, essa é uma boa maneira de obter uma perspectiva diferente sobre seus dados e, talvez, resultados diferentes.

Convertendo números em texto

Muitas vezes, os valores que devem ser discretos, como Masculino e Feminino, são representados como dados numéricos, usando os rótulos 1 e 2. Normalmente, essa codificação é executada para simplificar a entrada de dados ou para economizar espaço de armazenamento em um banco de dados, mas a codificação pode levar à ambiguidade sobre a natureza ou o significado dos valores. Além disso, como valores discretos são armazenados como números, à medida que você move dados entre aplicativos, você pode encontrar erros de conversão de tipo de dados e os valores podem ser calculados ou tratados como contínuos. Para evitar esses problemas, antes de iniciar a mineração de dados, você deve converter os rótulos numéricos de volta em rótulos de texto discretos.

Binning Numbers

Embora todos os números em princípio sejam infinitos e, portanto, sejam contínuos, ao modelar informações, você pode achar mais eficaz diferenciar ou armazenar os valores disponíveis.

Você pode classificar dados de várias maneiras:

  • Especifique um número finito de buckets e deixe o algoritmo classificar os valores em buckets.

  • Agrupe-os previamente por conta própria, criando grupos que tenham significado comercial ou sejam mais fáceis de trabalhar. Com essa abordagem, muitas vezes você perde a verdadeira distribuição de valores, mas os intervalos são mais fáceis de ler para os usuários.

  • Permita que o algoritmo determine o número ideal de buckets e a distribuição de valores. Esse é o padrão na maioria das ferramentas, mas você pode substituir esses padrões nos assistentes da barra de ferramentas de Mineração de Dados .

  • Aproximação de valores em direção a um valor médio ou representativo central.

Problemas comuns de dados

Formatos de número do Excel

O Excel é uma ferramenta fácil de usar porque ele é implacável - você pode colocar praticamente qualquer tipo de dados em qualquer lugar! No entanto, antes de começar a procurar padrões e analisar correlações, você precisa impor alguma estrutura ou restrições aos seus dados.

Por padrão, quando você importa dados numéricos para o Microsoft Office Excel, os números são armazenados em um formato decimal com duas casas decimais. Se esse não for um formato de número apropriado, você deverá alterar para outro formato numérico ou alterar o número de casas decimais.

Uma opção é usar a ferramenta Relabel para alterar a maneira como os números são exibidos ou agrupados.

No entanto, se os dados forem muito complexos para serem processados com a ferramenta Reetiquetar, você pode usar as funções numéricas no Excel para converter seus dados em intervalos discretos, salvar esse resultado em uma coluna separada e usar a coluna discretizada para classificação.

Por exemplo, se você estiver analisando os resultados da corrida e quiser agrupar os pilotos pelos tempos de término em minutos, poderá arredondar até o minuto mais próximo e salvar esse valor arredondado em uma nova coluna. Você também pode extrair apenas o valor de minuto usando a MINUTE função e, em seguida, salvar esse valor em uma nova coluna para uso na análise.

Discretizando Números e Datas no Excel

Por padrão, os dados numéricos no Excel são armazenados como um Double. Datas e horários também são armazenados em um formato numérico. Se você precisar diferenciar números ou datas para mineração de dados, adicione novas colunas antes de criar seu modelo de mineração de dados ou converta datas e números em outro formato com antecedência.

Formatos de números científicos

As ferramentas de mineração de dados geralmente geram probabilidades na notação científica, para representar números muito grandes ou muito pequenos. Se você não estiver familiarizado com a notação científica, poderá exibir facilmente esses números em outro formato simplesmente alterando a formatação da célula.

Para alterar a notação científica para um formato numérico decimal
  1. Na tabela de dados do Excel, realce a coluna ou célula que contém o número na notação científica.

  2. Clique com o botão direito do mouse e selecione Formatar células no menu de atalho.

  3. Na lista Categoria , selecione Número.

  4. Aumente o número de casas decimais. Uma probabilidade representada na notação científica é geralmente muito pequena.

    Somente a exibição do número é alterada, não o valor subjacente.

Trabalhando com datas e horários

Quando você tiver datas em uma tabela do Excel e usar a coluna como entrada ou previsão, poderá receber resultados inesperados, dependendo de como as informações de data ou hora são formatadas. Por exemplo, quando você usa Categorias de Detecção ou Classificação e inclui uma coluna que contém datas, as datas são categorizadas como números com muitas casas decimais. Isso não é um erro; é uma representação precisa dos dados subjacentes. O algoritmo de mineração de dados funciona com o formato de armazenamento subjacente, não com o formato de exibição.

Se você tiver dificuldade em trabalhar com datas e quiser analisar datas usando agrupamentos de senso comum como mês ou dia, poderá usar as funções DATE no Excel para extrair o ano, o mês ou o dia em uma coluna separada e, em seguida, usar essa coluna para classificação.

Outros requisitos de dados

Requisitos por tipo de algoritmo

Alguns algoritmos usados nos suplementos exigem tipos de dados ou tipos de conteúdo específicos para criar um modelo.

Modelos naïve Bayes

  • O algoritmo Microsoft Naive Bayes não pode usar colunas contínuas como entrada. Isso significa que você deve agrupar números, ou, se houver poucos valores, manipule-os como valores discretos.

  • Esse tipo de modelo também não pode prever valores contínuos. Portanto, se você quiser prever um número contínuo, como renda (por exemplo), primeiro deverá dividir os valores em intervalos significativos. Se você não tiver certeza de quais são os intervalos apropriados, poderá usar o algoritmo de clustering para identificar clusters de números em seus dados.

  • Quando você usa um assistente com base nesse algoritmo (como Analisar Influenciadores de Chave (Ferramentas de Análise de Tabela para Excel)), as colunas que são contínuas serão armazenadas pelo assistente.

  • Se você criar um modelo Naive Bayes usando a opção Modelagem Avançada (Suplementos de Mineração de Dados para Excel), as colunas numéricas serão removidas do modelo. Se você quiser evitar isso, use a ferramenta Relbel (Suplementos de Mineração de Dados do SQL Server) para criar uma nova coluna com valores binados.

Modelos de Agrupamento

Modelos de previsão

  • Todas as ferramentas de previsão exigem que você preveja um número contínuo. Você não pode prever um número que foi salvo como texto.

  • Se os dados contiverem colunas numéricas com o tipo de dados errado, você poderá usar funções do Excel ou funções PowerPivot para fazer uma cópia da coluna que tem o tipo de dados numérico correto. Se você fizer isso, remova a cópia da coluna que tem os números de texto, para que os valores não sejam duplicados.

  • Se você quiser criar um gráfico de dispersão de um modelo de regressão, as variáveis de entrada também deverão ser números contínuos, expressos como um tipo de dados apropriado.

Usando tipos de conteúdo para criar modelos melhores

Um tipo de conteúdo é uma propriedade que você aplica a uma coluna para especificar como os dados de coluna devem ser usados pelo modelo. O algoritmo pode usar o tipo de conteúdo como uma instrução ou dica ao executar a análise.

Por exemplo, se uma coluna contiver números que se repetem em um intervalo específico para indicar os dias da semana, você poderá especificar o tipo de conteúdo dessa coluna como Cyclical.

Você não precisará se preocupar com os tipos de conteúdo se usar os assistentes e ferramentas fornecidos nestes suplementos. No entanto, se você usar a opção de modelagem Adicionar Modelo à Estrutura (Suplementos de Mineração de Dados para Excel) para adicionar um novo modelo aos dados existentes, poderá receber um erro relacionado aos tipos de conteúdo.

O motivo é que alguns tipos de modelo exigem um determinado tipo de dados (como um carimbo de data/hora). As ferramentas processam essas colunas de acordo com requisitos específicos e também adicionam uma propriedade de tipo de conteúdo. Portanto, se você reutilize os dados com um algoritmo completamente diferente, talvez seja necessário alterar o tipo de dados ou o tipo de conteúdo.

A lista a seguir descreve os tipos de conteúdo usados na mineração de dados e identifica os tipos de dados que dão suporte a cada tipo.

Discrete
A coluna contém um número finito de valores sem continuidade entre os valores. Por exemplo, uma coluna de gênero é uma coluna de atributo discreto típica, na qual os dados representam um número específico de categorias.

O Discrete tipo de conteúdo pode ser usado com todos os tipos de dados.

Continuous
A coluna contém valores que representam dados numéricos em uma escala que permite valores provisórios. Uma coluna contínua representa medidas escalonáveis e é possível que os dados contenham um número infinito de valores fracionários. Uma coluna de temperaturas é um exemplo de uma coluna de atributo contínua.

O Continuous tipo de conteúdo pode ser usado com os seguintes tipos de dados: Date, Doublee Long.

Discretized
A coluna contém valores que representam grupos de valores derivados de uma coluna contínua. Os buckets são tratados como valores ordenados e discretos.

O Discretized tipo de conteúdo pode ser usado com os seguintes tipos de dados: Date, , Double. Long

Chave
A coluna identifica exclusivamente uma linha.

Normalmente, a coluna de chave é um identificador numérico ou de texto que não deve ser usado para análise, somente para acompanhamento de registros. As exceções são chaves de série temporal e chaves de sequência.

As chaves de tabela aninhadas são usadas somente quando você obtém dados de uma fonte de dados externa que foi definida como uma exibição de fonte de dados do Analysis Services. Para obter mais informações sobre tabelas aninhadas, consulte https://msdn.microsoft.com/library/ms175659.aspx:

Esse tipo de conteúdo pode ser usado com os seguintes tipos de dados: Date, , Doublee LongText.

Sequência de chaves
A coluna contém valores que representam uma sequência de eventos. Os valores são ordenados, mas não precisam estar igualmente espaçados.

Esse tipo de conteúdo é compatível com os seguintes tipos de dados: Double, , Longe TextDate.

Hora da Chave
A coluna contém valores ordenados e representam uma escala de tempo. Você só poderá usar o tipo de conteúdo de tempo chave se o modelo for um modelo de série temporal ou um modelo de agrupamento de sequência.

Esse tipo de conteúdo é compatível com os seguintes tipos de dados: Double, Longe Date.

Tabela
Esse tipo de conteúdo também é usado somente quando você obtém dados de uma fonte de dados externa que foi definida como uma exibição de fonte de dados do Analysis Services.

Significa que cada linha de dados realmente contém uma tabela aninhada, com uma ou mais colunas e uma ou mais linhas.

Tabelas aninhadas são muito úteis, mas você pode usá-las apenas com as opções de Modelagem Avançada (Suplementos de Mineração de Dados para Excel). Por exemplo, os dados de exemplo para o assistente Assistente de Associação (Cliente de Mineração de Dados para Excel) e a ferramenta Análise de Cesta de Compras (Ferramentas de Análise de Tabela para Excel) contêm dados que foram achatados de uma tabela aninhada.