Udostępnij przez


Macierz klasyfikacji (Analysis Services — eksploracja danych)

Dotyczy: SQL Server 2019 i starsze usługi Analysis Services Azure Analysis Services Fabric/Power BI Premium

Ważne

Funkcja wyszukiwania danych została uznana za przestarzałą w usługach SQL Server 2017 Analysis Services i została zakończona w usługach SQL Server 2022 Analysis Services. Dokumentacja nie jest aktualizowana dla przestarzałych i wycofanych funkcji. Aby dowiedzieć się więcej, zobacz zgodność z poprzednimi wersjami usług Analysis Services.

Macierz klasyfikacji sortuje wszystkie przypadki z modelu na kategorie, określając, czy przewidywana wartość jest zgodna z rzeczywistą wartością. Wszystkie przypadki w każdej kategorii są następnie liczone, a sumy są wyświetlane w macierzy. Macierz klasyfikacji to standardowe narzędzie do oceny modeli statystycznych i czasami nazywane macierzą pomyłek.

Wykres tworzony podczas wybierania opcji Macierz klasyfikacji porównuje wartości rzeczywiste z przewidywanymi wartościami dla każdego określonego stanu przewidywanego. W macierzy wiersze reprezentują przewidywane wartości dla modelu, a kolumny reprezentują wartości rzeczywiste. Kategorie używane w analizie są fałszywie dodatnie, prawdziwie dodatnie, fałszywie ujemne i prawdziwie ujemne

Macierz klasyfikacji jest ważnym narzędziem do oceny wyników przewidywania, ponieważ ułatwia zrozumienie i uwzględnianie skutków nieprawidłowych przewidywań. Wyświetlając kwoty i wartości procentowe w każdej komórce tej macierzy, możesz szybko zobaczyć, jak często model przewidział dokładnie.

W tej sekcji wyjaśniono, jak utworzyć macierz klasyfikacji i jak interpretować wyniki.

Opis macierzy klasyfikacji

Rozważ model utworzony w ramach samouczka podstawowego wyszukiwania danych. Model [TM_DecisionTree] służy do tworzenia docelowej kampanii wysyłkowej i może służyć do przewidywania, którzy klienci najprawdopodobniej kupią rower. Aby przetestować tę oczekiwaną użyteczność tego modelu, należy użyć zestawu danych, dla którego wartości atrybutu wyniku [Bike Buyer] są już znane. Zazwyczaj można użyć zestawu danych testowych, który został odłożony podczas tworzenia struktury eksploracyjnej używanej do trenowania modelu.

Istnieją tylko dwa możliwe wyniki: tak (klient może kupić rower) i nie (klient prawdopodobnie nie kupi roweru). W związku z tym wynikowa macierz klasyfikacji jest stosunkowo prosta.

Interpretowanie wyników

W poniższej tabeli przedstawiono macierz klasyfikacji modelu TM_DecisionTree. Należy pamiętać, że dla tego przewidywalnego atrybutu wartość 0 oznacza wartość Nie i 1 oznacza wartość Tak.

Prognozowane 0 (rzeczywiste) 1 (rzeczywisty)
0 362 144
1 121 373

Pierwsza komórka wyniku zawierająca wartość 362 wskazuje liczbę wyników prawdziwie dodatnich dla wartości 0. Ponieważ wartość 0 wskazuje, że klient nie kupił roweru, ta statystyka informuje, że model poprawnie przewidział brak zakupu roweru w 362 przypadkach.

Komórka bezpośrednio pod tą, która zawiera wartość 121, informuje o liczbie wyników fałszywie dodatnich, czyli o tym, ile razy model przewidział, że ktoś kupi rower, gdy w rzeczywistości tego nie zrobił.

Komórka zawierająca wartość 144 wskazuje liczbę wyników fałszywie dodatnich dla wartości 1. Ponieważ 1 oznacza, że klient kupił rower, ta statystyka informuje, że w 144 przypadkach model przewidział, że ktoś nie kupi roweru, gdy w rzeczywistości to zrobi.

Na koniec komórka zawierająca wartość 373 wskazuje liczbę wyników prawdziwie dodatnich dla wartości docelowej 1. Innymi słowy, w 373 przypadkach model prawidłowo przewidział, że ktoś kupi rower.

Sumując wartości w komórkach, które są sąsiadujące po przekątnej, można określić ogólną dokładność modelu. Jedna przekątna informuje o całkowitej liczbie dokładnych przewidywań, a druga przekątna informuje o łącznej liczbie błędnych przewidywań.

Używanie wielu przewidywalnych wartości

Przypadek [Nabywca roweru] jest szczególnie łatwy do zinterpretowania, ponieważ istnieją tylko dwie możliwe wartości. Gdy przewidywalny atrybut ma wiele możliwych wartości, macierz klasyfikacji dodaje nową kolumnę dla każdej możliwej rzeczywistej wartości, a następnie zlicza liczbę dopasowań dla każdej przewidywanej wartości. W poniższej tabeli przedstawiono wyniki w innym modelu, w którym możliwe są trzy wartości (0, 1, 2).

Prognozowane 0 (rzeczywiste) 1 (rzeczywisty) 2 (rzeczywiste)
0 111 3 5
1 2 123 17
2 19 0 20

Chociaż dodanie większej liczby kolumn sprawia, że raport wygląda bardziej złożony, dodatkowe szczegóły mogą być bardzo przydatne, gdy chcesz ocenić skumulowany koszt dokonywania nieprawidłowego przewidywania. Aby utworzyć sumy na przekątnych lub porównać wyniki dla różnych kombinacji wierszy, możesz kliknąć przycisk Kopiuj na karcie Macierz klasyfikacji i wkleić raport do programu Excel. Alternatywnie można użyć klienta, takiego jak klient wyszukiwania danych dla programu Excel, który obsługuje program SQL Server 2005 (9.x) i nowsze wersje, aby utworzyć raport klasyfikacji bezpośrednio w programie Excel zawierający zarówno liczby, jak i wartości procentowe. Aby uzyskać więcej informacji, zobacz SQL Server Data Mining (Wyszukiwanie danych programu SQL Server).

Ograniczenia macierzy klasyfikacji

Macierz klasyfikacji może być używana tylko z dyskretnymi przewidywalnymi atrybutami.

Chociaż można dodać wiele modeli podczas wybierania modeli na karcie Wybór danych wejściowych projektanta Wykresu dokładności wydobywania danych, karta Macierz klasyfikacji wyświetli oddzielną macierz dla każdego modelu.

Poniższe tematy zawierają więcej informacji na temat tworzenia macierzy klasyfikacji i innych wykresów oraz korzystania z nich.

Tematy Links
Objaśnia powiązane typy wykresów. Wykres Podnoszenia (Analysis Services - Eksploracja Danych)

Wykres zysków (Analysis Services — eksploracja danych)

Wykres punktowy (Usługi analizy - Eksploracja danych)
Opisuje zastosowania krzyżowego sprawdzania poprawności dla modeli górnictwa i struktur górniczych. Krzyżowe sprawdzanie poprawności (Analysis Services — eksploracja danych)
Opisuje kroki tworzenia wykresów unoszenia (lift charts) i pozostałych wykresów dokładności. Zadania testowania i walidacji oraz instrukcje (wyszukiwania danych)

Zobacz też

Testowanie i walidacja (eksploracja danych)