Partilhar via


Matriz de classificação (Analysis Services - Mineração de dados)

Aplica-se a: SQL Server 2019 e anteriores Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora descontinuada no SQL Server 2022 Analysis Services. A documentação não é atualizada para recursos preteridos e descontinuados. Para saber mais, consulte Compatibilidade com versões anteriores do Analysis Services.

Uma matriz de classificação classifica todos os casos do modelo em categorias, determinando se o valor previsto corresponde ao valor real. Todos os casos em cada categoria são então contados, e os totais são exibidos na matriz. A matriz de classificação é uma ferramenta padrão para avaliação de modelos estatísticos e é por vezes referida como uma matriz de confusão.

O gráfico criado quando você escolhe a opção Matriz de Classificação compara os valores reais com os previstos para cada estado previsto especificado. As linhas na matriz representam os valores previstos para o modelo, enquanto as colunas representam os valores reais. As categorias usadas na análise são falso positivo, verdadeiro positivo, falso negativo e verdadeiro negativo

Uma matriz de classificação é uma ferramenta importante para avaliar os resultados da predição, pois facilita a compreensão e a contabilização dos efeitos de previsões erradas. Ao visualizar a quantidade e as porcentagens em cada célula dessa matriz, você pode ver rapidamente com que frequência o modelo previu com precisão.

Esta seção explica como criar uma matriz de classificação e como interpretar os resultados.

Compreender a matriz de classificação

Considere o modelo que você criou como parte do Tutorial Básico de Mineração de Dados. O modelo [TM_DecisionTree] é usado para ajudar a criar uma campanha de mala direta direcionada e pode ser usado para prever quais clientes são mais propensos a comprar uma bicicleta. Para testar essa utilidade esperada desse modelo, você usa um conjunto de dados para o qual os valores do atributo de resultado, [Bike Buyer], já são conhecidos. Normalmente, você usaria o conjunto de dados de teste reservado ao criar a estrutura de mineração usada para treinar o modelo.

Há apenas dois resultados possíveis: sim (o cliente provavelmente comprará uma bicicleta) e não (o cliente provavelmente não comprará uma bicicleta). Portanto, a matriz de classificação resultante é relativamente simples.

Interpretação dos resultados

A tabela a seguir mostra a matriz de classificação para o modelo TM_DecisionTree. Lembre-se que, para este atributo previsível, 0 significa Não e 1 significa Sim.

Previsto 0 (Atual) 1 (Atual)
0 362 144
1 121 373

A primeira célula de resultado, que contém o valor 362, indica o número de verdadeiros positivos para o valor 0. Como 0 indica que o cliente não comprou uma bicicleta, esta estatística diz-lhe que o modelo previu o valor correto para não compradores de bicicletas em 362 casos.

A célula logo abaixo desta, que contém o valor 121, informa o número de falsos positivos, ou quantas vezes o modelo previu que alguém compraria uma bicicleta quando, na verdade, não o fez.

A célula que contém o valor 144 indica o número de falsos positivos para o valor 1. Porque 1 significa que o cliente comprou uma bicicleta, esta estatística diz-lhe que, em 144 casos, o modelo previu que alguém não compraria uma bicicleta quando na verdade o fez.

Finalmente, a célula que contém o valor 373 indica o número de verdadeiros positivos para o valor-alvo de 1. Ou seja, em 373 casos o modelo previu corretamente que alguém compraria uma bicicleta.

Somando os valores nas células que estão diagonalmente adjacentes, você pode determinar a precisão geral do modelo. Uma diagonal informa o número total de previsões precisas e a outra diagonal informa o número total de previsões erradas.

Usando vários valores previsíveis

O caso [Bike Buyer] é especialmente fácil de interpretar porque existem apenas dois valores possíveis. Quando o atributo previsível tem vários valores possíveis, a matriz de classificação adiciona uma nova coluna para cada valor real possível e, em seguida, conta o número de correspondências para cada valor previsto. A tabela a seguir mostra os resultados em um modelo diferente, onde três valores (0, 1, 2) são possíveis.

Previsto 0 (Atual) 1 (Atual) 2 (Atual)
0 111 3 5
1 2 123 17
2 19 0 20

Embora a adição de mais colunas torne o relatório mais complexo, os detalhes adicionais podem ser muito úteis quando você deseja avaliar o custo acumulado de fazer a previsão errada. Para criar somas nas diagonais ou comparar os resultados para diferentes combinações de linhas, clique no botão Copiar fornecido na guia Matriz de Classificação e cole o relatório no Excel. Como alternativa, você pode usar um cliente como o Cliente de Mineração de Dados para Excel, que oferece suporte ao SQL Server 2005 (9.x) e versões posteriores, para criar um relatório de classificação diretamente no Excel que inclua contagens e porcentagens. Para obter mais informações, consulte Mineração de dados do SQL Server.

Restrições à matriz de classificação

Uma matriz de classificação só pode ser usada com atributos previsíveis discretos.

Embora você possa adicionar vários modelos ao selecionar modelos na guia Seleção de Entrada do designer de Gráfico de Precisão de Mineração , a guia Matriz de Classificação exibirá uma matriz separada para cada modelo.

Os tópicos a seguir contêm mais informações sobre como criar e usar matrizes de classificação e outros gráficos.

Tópicos Links
Explica os tipos de gráficos relacionados. Gráfico de elevação (Analysis Services - Mineração de dados)

Gráfico de lucro (Analysis Services - Mineração de dados)

Gráfico de dispersão (Analysis Services - Mineração de dados)
Descreve os usos da validação cruzada para modelos de mineração e estruturas de mineração. Validação cruzada (Analysis Services - Mineração de Dados)
Descreve as etapas para criar gráficos de elevação e outros gráficos de precisão. Tarefas de teste e validação e instruções (Data Mining)

Ver também

Testes e Validação (Data Mining)