Compartilhar via


Conceitos de mineração de dados

A mineração de dados é o processo de descoberta de informações acionáveis de grandes conjuntos de dados. A mineração de dados usa análise matemática para derivar padrões e tendências existentes nos dados. Normalmente, esses padrões não podem ser descobertos pela exploração de dados tradicional porque as relações são muito complexas ou porque há muitos dados.

Esses padrões e tendências podem ser coletados e definidos como um modelo de mineração de dados. Os modelos de mineração podem ser aplicados a cenários específicos, como:

  • Previsão: Estimativa de vendas, previsão de cargas de servidor ou tempo de inatividade do servidor

  • Risco e probabilidade: escolhendo os melhores clientes para correspondências direcionadas, determinando o ponto de equilíbrio provável para cenários de risco, atribuindo probabilidades a diagnósticos ou outros resultados

  • Recomendações: Determinar quais produtos provavelmente serão vendidos juntos, gerando recomendações

  • Encontrando sequências: analisando seleções de clientes em um carrinho de compras, prevendo os próximos eventos prováveis

  • Agrupamento: separando clientes ou eventos em cluster de itens relacionados, analisando e prevendo afinidades

A criação de um modelo de mineração faz parte de um processo maior que inclui desde fazer perguntas sobre os dados e criar um modelo para responder a essas perguntas, até implantar o modelo em um ambiente de trabalho. Esse processo pode ser definido usando as seis etapas básicas a seguir:

  1. Definindo o problema

  2. Preparando dados

  3. Explorando dados

  4. Criando modelos

  5. Explorando e validando modelos

  6. Implantando e atualizando modelos

O diagrama a seguir descreve as relações entre cada etapa no processo e as tecnologias no Microsoft SQL Server que você pode usar para concluir cada etapa.

Principais etapas no processo de mineração de dados

O processo ilustrado no diagrama é cíclico, o que significa que a criação de um modelo de mineração de dados é um processo dinâmico e iterativo. Depois de explorar os dados, você pode descobrir que os dados são insuficientes para criar os modelos de mineração apropriados e, portanto, você precisa procurar mais dados. Como alternativa, você pode criar vários modelos e perceber que os modelos não respondem adequadamente ao problema definido e, portanto, você deve redefinir o problema. Talvez seja necessário atualizar os modelos depois que eles tiverem sido implantados porque mais dados se tornaram disponíveis. Cada etapa no processo pode precisar ser repetida muitas vezes para criar um bom modelo.

A Mineração de Dados do Microsoft SQL Server fornece um ambiente integrado para criar e trabalhar com modelos de mineração de dados. Esse ambiente inclui o SQL Server Development Studio, que contém algoritmos de mineração de dados e ferramentas de consulta que facilitam a criação de uma solução abrangente para uma variedade de projetos e o SQL Server Management Studio, que contém ferramentas para navegar em modelos e gerenciar objetos de mineração de dados. Para obter mais informações, consulte Criando modelos multidimensionais usando o SSDT (SQL Server Data Tools).

Para obter um exemplo de como as ferramentas do SQL Server podem ser aplicadas a um cenário de negócios, consulte o Tutorial básico de mineração de dados.

Definindo o problema

A primeira etapa no processo de mineração de dados, conforme realçado no diagrama a seguir, é definir claramente o problema e considerar maneiras pelas quais os dados podem ser utilizados para fornecer uma resposta para o problema.

Primeira etapa de mineração de dados: definindo o problema

Esta etapa inclui a análise de requisitos de negócios, a definição do escopo do problema, a definição das métricas pelas quais o modelo será avaliado e a definição de objetivos específicos para o projeto de mineração de dados. Essas tarefas se traduzem em perguntas como as seguintes:

  • O que você está procurando? Quais tipos de relacionamentos você está tentando encontrar?

  • O problema que você está tentando resolver reflete as políticas ou processos da empresa?

  • Deseja fazer previsões do modelo de mineração de dados ou apenas procurar padrões e associações interessantes?

  • Qual resultado ou atributo você deseja tentar prever?

  • Que tipo de dados você tem e que tipo de informação há em cada coluna? Se houver várias tabelas, como as tabelas estão relacionadas? Você precisa executar qualquer limpeza, agregação ou processamento para tornar os dados utilizáveis?

  • Como os dados são distribuídos? Os dados são sazonais? Os dados representam com precisão os processos da empresa?

Para responder a essas perguntas, talvez seja necessário realizar um estudo de disponibilidade de dados para investigar as necessidades dos usuários empresariais em relação aos dados disponíveis. Se os dados não deem suporte às necessidades dos usuários, talvez seja necessário redefinir o projeto.

Você também precisa considerar as maneiras pelas quais os resultados do modelo podem ser incorporados nos principais KPI (indicadores de desempenho) usados para medir o progresso dos negócios.

Preparando dados

A segunda etapa no processo de mineração de dados, conforme realçado no diagrama a seguir, é consolidar e limpar os dados identificados na etapa Definir o Problema .

Segunda etapa de mineração de dados: preparando

Os dados podem ser espalhados por uma empresa e armazenados em formatos diferentes ou podem conter inconsistências, como entradas incorretas ou ausentes. Por exemplo, os dados podem mostrar que um cliente comprou um produto antes de o produto ser oferecido no mercado ou que o cliente faz compras regularmente em uma loja localizada a 3.000 km de sua casa.

A limpeza de dados não se trata apenas de remover dados incorretos ou interpolar valores ausentes, mas de localizar correlações ocultas nos dados, identificar fontes de dados que são as mais precisas e determinar quais colunas são as mais apropriadas para uso na análise. Por exemplo, você deve usar a data de envio ou a data do pedido? O melhor influenciador de vendas é a quantidade, o preço total ou um preço com desconto? Dados incompletos, dados incorretos e entradas que parecem separadas, mas na verdade estão fortemente correlacionadas, todos podem influenciar os resultados do modelo de maneiras que você não espera.

Portanto, antes de começar a criar modelos de mineração, você deve identificar esses problemas e determinar como corrigi-los. Para mineração de dados normalmente, você está trabalhando com um conjunto de dados muito grande e não pode examinar todas as transações quanto à qualidade dos dados; Portanto, talvez seja necessário usar alguma forma de criação de perfil de dados e ferramentas automatizadas de limpeza e filtragem de dados, como as fornecidas no Integration Services, microsoft SQL Server 2012 Master Data Services ou SQL Server Data Quality Services para explorar os dados e encontrar as inconsistências. Para obter mais informações, consulte estes recursos:

É importante observar que os dados usados para mineração de dados não precisam ser armazenados em um cubo OLAP (Processamento Analítico Online) ou mesmo em um banco de dados relacional, embora você possa usá-los como fontes de dados. Você pode realizar a mineração de dados usando qualquer fonte de dados que tenha sido definida como uma fonte de dados do Analysis Services. Isso pode incluir arquivos de texto, pastas de trabalho do Excel ou dados de outros provedores externos. Para obter mais informações, consulte Fontes de Dados Suportadas (SSAS Multidimensional).

Explorando dados

A terceira etapa no processo de mineração de dados, conforme realçado no diagrama a seguir, é explorar os dados preparados.

Terceira etapa de mineração de dados: explorando dados

Você deve entender os dados para tomar as decisões apropriadas ao criar os modelos de mineração. As técnicas de exploração incluem calcular os valores mínimos e máximos, calcular desvios médios e padrão e examinar a distribuição dos dados. Por exemplo, você pode determinar examinando os valores máximo, mínimo e médio que os dados não são representativos de seus clientes ou processos empresariais e, portanto, você deve obter dados mais equilibrados ou examinar as suposições que são a base para suas expectativas. Desvios padrão e outros valores de distribuição podem fornecer informações úteis sobre a estabilidade e a precisão dos resultados. Um desvio padrão grande pode indicar que adicionar mais dados pode ajudá-lo a melhorar o modelo. Os dados que se desviam fortemente de uma distribuição padrão podem ser distorcidos ou podem representar uma imagem precisa de um problema da vida real, mas dificultam a adaptação de um modelo aos dados.

Explorando os dados à luz de sua própria compreensão do problema de negócios, você pode decidir se o conjunto de dados contém dados falhos e, em seguida, você pode elaborar uma estratégia para corrigir os problemas ou obter uma compreensão mais profunda dos comportamentos típicos da sua empresa.

Você pode usar ferramentas como o Master Data Services para pesquisar fontes de dados disponíveis e determinar sua disponibilidade para mineração de dados. Você pode usar ferramentas como o SQL Server Data Quality Services ou o Data Profiler no Integration Services para analisar a distribuição de seus dados e reparar problemas como dados incorretos ou ausentes.

Depois de definir suas fontes, você as combinará em uma exibição da Fonte de Dados usando o Designer de Exibição da Fonte de Dados no SQL Server Data Tools. Para obter mais informações, consulte Exibições da fonte de dados em modelos multidimensionais. Esse designer também contém algumas ferramentas que você pode usar para explorar os dados e verificar se ele funcionará para criar um modelo. Para obter mais informações, consulte Explore Data in a Data Source View (Analysis Services).

Observe que quando você cria um modelo, o Analysis Services cria automaticamente resumos estatísticos dos dados contidos no modelo, que você pode consultar para usar em relatórios ou análise posterior. Para obter mais informações, consulte Consultas de mineração de dados.

Criando modelos

A quarta etapa no processo de mineração de dados, conforme realçado no diagrama a seguir, é criar o modelo ou modelos de mineração. Você usará o conhecimento obtido na etapa Explorar Dados para ajudar a definir e criar os modelos.

Quarta etapa de mineração de dados: construção de modelos de mineração

Você define as colunas de dados que deseja usar criando uma estrutura de mineração. A estrutura de mineração está vinculada à fonte de dados, mas não contém dados até que você os processe. Quando você processa a estrutura de mineração, o Analysis Services gera agregações e outras informações estatísticas que podem ser usadas para análise. Essas informações podem ser usadas por qualquer modelo de mineração baseado na estrutura. Para obter mais informações sobre como as estruturas de mineração estão relacionadas a modelos de mineração, consulte Arquitetura Lógica (Analysis Services – Mineração de Dados).

Antes que a estrutura e o modelo sejam processados, um modelo de mineração de dados também é apenas um contêiner que especifica as colunas usadas para entrada, o atributo que você está prevendo e parâmetros que informam ao algoritmo como processar os dados. O processamento de um modelo geralmente é chamado de treinamento. O treinamento refere-se ao processo de aplicação de um algoritmo matemático específico aos dados na estrutura para extrair padrões. Os padrões encontrados no processo de treinamento dependem da seleção de dados de treinamento, do algoritmo escolhido e de como você configurou o algoritmo. O SQL Server 2014 contém muitos algoritmos diferentes, cada um adequado para um tipo diferente de tarefa e cada um criando um tipo diferente de modelo. Para obter uma lista dos algoritmos fornecidos no SQL Server 2014, consulte Algoritmos de Mineração de Dados (Analysis Services – Mineração de Dados).

Você também pode usar parâmetros para ajustar cada algoritmo e aplicar filtros aos dados de treinamento para usar apenas um subconjunto dos dados, criando resultados diferentes. Depois de passar dados pelo modelo, o objeto de modelo de mineração contém resumos e padrões que podem ser consultados ou usados para previsão.

Você pode definir um novo modelo usando o Assistente de Mineração de Dados no SQL Server Data Tools ou usando a linguagem DMX (Extensões de Mineração de Dados). Para obter mais informações sobre como usar o Assistente de Mineração de Dados, consulte o Assistente de Mineração de Dados (Analysis Services – Mineração de Dados). Para obter mais informações sobre como usar o DMX, consulte a Referência de DMX (Extensões de Mineração de Dados).

É importante lembrar que sempre que os dados forem alterados, você deverá atualizar a estrutura de mineração e o modelo de mineração. Quando você atualiza uma estrutura de mineração reprocessando-a, o Analysis Services recupera dados da origem, incluindo novos dados se a origem for atualizada dinamicamente e repovoa a estrutura de mineração. Se você tiver modelos baseados na estrutura, poderá optar por atualizar os modelos baseados na estrutura, o que significa que eles são treinados novamente nos novos dados ou você pode deixar os modelos como estão. Para obter mais informações, consulte Requisitos e considerações de processamento (mineração de dados).

Explorando e validando modelos

A quinta etapa no processo de mineração de dados, conforme destacado no diagrama a seguir, é explorar os modelos de mineração criados e testar sua eficácia.

Quinta etapa de mineração de dados: validando modelos de mineração

Antes de implantar um modelo em um ambiente de produção, você desejará testar o desempenho do modelo. Além disso, ao criar um modelo, você normalmente cria vários modelos com configurações diferentes e testa todos os modelos para ver quais geram os melhores resultados para seu problema e seus dados.

O Analysis Services fornece ferramentas que ajudam você a separar seus dados em conjuntos de dados de treinamento e teste para que você possa avaliar com precisão o desempenho de todos os modelos nos mesmos dados. Use o conjunto de dados de treinamento para criar o modelo e o conjunto de dados de teste para testar a precisão do modelo criando consultas de previsão. No SSAS (SQL Server 2014 Analysis Services), esse particionamento pode ser feito automaticamente durante a criação do modelo de mineração. Para obter mais informações, consulte Teste e validação (mineração de dados).

Você pode explorar as tendências e padrões que os algoritmos descobrem usando os visualizadores no Designer de Mineração de Dados no SQL Server Data Tools. Para obter mais informações, consulte Visualizadores do modelo de mineração de dados. Você também pode testar o quão bem os modelos criam previsões usando ferramentas no designer, como o gráfico de lift e a matriz de classificação. Para verificar se o modelo é específico aos seus dados ou pode ser usado para fazer inferências na população geral, você pode usar a técnica estatística chamada validação cruzada para criar automaticamente subconjuntos dos dados e testar o modelo em cada subconjunto. Para obter mais informações, consulte Teste e validação (mineração de dados).

Se nenhum dos modelos criados na etapa de Modelos de Construção tiver um bom desempenho, talvez seja necessário retornar a uma etapa anterior no processo e redefinir o problema ou reinvestigar os dados no conjunto de dados original.

Implantando e atualizando modelos

A última etapa no processo de mineração de dados, conforme realçado no diagrama a seguir, é implantar os modelos que tiveram o melhor desempenho em um ambiente de produção.

Sexta etapa de mineração de dados: implantando modelos de mineração

Depois que os modelos de mineração existirem em um ambiente de produção, você poderá executar muitas tarefas, dependendo de suas necessidades. Veja a seguir algumas das tarefas que você pode executar:

  • Use os modelos para criar previsões, que você pode usar para tomar decisões de negócios. O SQL Server fornece a linguagem DMX que você pode usar para criar consultas de previsão e o Construtor de Consultas de Previsão para ajudá-lo a criar as consultas. Para obter mais informações, confira Referência de DMX (extensões DMX).

  • Crie consultas de conteúdo para recuperar estatísticas, regras ou fórmulas do modelo. Para obter mais informações, consulte Consultas de mineração de dados.

  • Insira a funcionalidade de mineração de dados diretamente em um aplicativo. Você pode incluir AMO (Objetos de Gerenciamento de Análise), que contém um conjunto de objetos que seu aplicativo pode usar para criar, alterar, processar e excluir estruturas de mineração e modelos de mineração. Como alternativa, você pode enviar mensagens XML for Analysis (XMLA) diretamente para uma instância do Analysis Services.

  • Use o Integration Services para criar um pacote no qual um modelo de mineração é usado para separar de forma inteligente os dados de entrada em várias tabelas. Por exemplo, se um banco de dados for atualizado continuamente com clientes potenciais, você poderá usar um modelo de mineração junto com o Integration Services para dividir os dados de entrada em clientes que provavelmente comprarão um produto e clientes que provavelmente não comprarão um produto.

  • Crie um relatório que permita que os usuários consultem diretamente um modelo de mineração existente. Para obter mais informações, confira Reporting Services no SSDT (SQL Server Data Tools).

  • Atualize os modelos após revisão e análise. Qualquer atualização requer que você reprocesse os modelos. Para obter mais informações, consulte Processing Data Mining Objects.

  • Atualize os modelos dinamicamente, à medida que mais dados entram na organização e fazer alterações constantes para melhorar a eficácia da solução deve fazer parte da estratégia de implantação. Para obter mais informações, consulte Gerenciamento de soluções e objetos de mineração de dados

Consulte Também

Soluções de Mineração de DadosFerramentas de Mineração de Dados