Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Dotyczy:SQL Server
Ważne
Usługi Data Quality Services (DQS) są usuwane w programie SQL Server 2025 (17.x). Nadal obsługujemy DQS w programie SQL Server 2022 (16.x) i starszych wersjach.
W tym temacie opisano bazę wiedzy w usługach Data Quality Services (DQS). Aby oczyścić dane, musisz mieć wiedzę na temat danych. Aby przygotować wiedzę na temat projektu jakości danych, należy utworzyć bazę wiedzy (KB), której DQS może użyć do identyfikowania nieprawidłowych lub nieprawidłowych danych. DQS umożliwia korzystanie zarówno z procesów wspomaganych komputerowo, jak i interaktywnych w celu tworzenia, tworzenia i aktualizowania bazy wiedzy. Wiedza w bazie wiedzy jest utrzymywana w domenach, z których każda jest specyficzna dla pola danych. Baza wiedzy to repozytorium wiedzy na temat Twoich danych, które pozwala zrozumieć dane i zachować jego integralność.
Bazy wiedzy DQS mają następujące korzyści:
Budowanie wiedzy na temat danych jest szczegółowym procesem. Proces DQS wyodrębniania wiedzy na temat danych automatycznie, z przykładowych danych, sprawia, że proces jest znacznie łatwiejszy.
DQS umożliwia wyświetlanie analizy danych oraz rozszerzanie wiedzy w bazie wiedzy przez tworzenie reguł i zmienianie wartości danych. Możesz to zrobić wielokrotnie, aby poprawić wiedzę w czasie.
Możesz wykorzystać istniejącą wiedzę na temat jakości danych, opierając bazę wiedzy na dostępnej już bazie danych, importując wiedzę o domenie z plików do bazy wiedzy, importując wiedzę z projektu z powrotem do bazy wiedzy, lub korzystając z domyślnej bazy wiedzy DQS, czyli DQS Data.
Jakość danych można zapewnić, porównując je z danymi obsługiwanymi przez dostawcę danych referencyjnych.
Istnieje wyraźna separacja między tworzeniem bazy wiedzy i stosowaniem jej w procesie korekty danych, co zapewnia elastyczność tworzenia i aktualizowania bazy wiedzy.
Steward danych używa aplikacji Data Quality Client zarówno do wykonywania i kontrolowania komputerowo wspomaganych kroków, jak i do przeprowadzania kroków interaktywnych.
Na poniższej ilustracji przedstawiono różne składniki w bazie wiedzy i domenie w DQS:
Jak stworzyć i zbudować bazę wiedzy systemu DQS
Tworzenie bazy wiedzy DQS obejmuje następujące procesy i składniki:
Odkrywanie wiedzy
Proces wspomagany komputerowo, który tworzy wiedzę w bazie wiedzy przez przetwarzanie przykładu danych
zarządzanie domeną
Interaktywny proces, który umożliwia stewardowi danych weryfikowanie i modyfikowanie wiedzy, która znajduje się w domenach bazy wiedzy, z których każda jest skojarzona z polem danych. Może to obejmować ustawianie właściwości dla całego pola, tworzenie reguł, zmienianie określonych wartości, używanie usług danych referencyjnych lub konfigurowanie relacji terminowych lub krzyżowych.
Usługi danych referencyjnych
Proces zarządzania domenami, który umożliwia weryfikowanie danych względem danych przechowywanych i gwarantowanych przez dostawcę danych referencyjnych.
Polityka dopasowania
Zasady definiujące sposób przetwarzania rekordów przez DQS w celu identyfikowania potencjalnych duplikatów i niezgodności wbudowanych w bazę wiedzy w procesie wspomaganym komputerowo i interaktywnym.
Odnajdywanie wiedzy
Tworzenie bazy wiedzy jest początkowo procesem sterowanym komputerem. Działanie odnajdywania wiedzy tworzy bazę wiedzy, analizując próbkę danych pod kątem kryteriów jakości danych, wyszukując niespójności danych i błędy składniowe oraz proponując zmiany w danych. Ta analiza jest oparta na algorytmach wbudowanych w DQS.
Steward danych przygotowuje proces przez połączenie bazy wiedzy z tabelą bazy danych programu SQL Server lub widokiem zawierającym przykładowe dane podobne do danych, które będą używane do analizy bazy wiedzy. Następnie steward danych przypisuje domenę bazy wiedzy do każdej kolumny przykładowych danych przeznaczonych do analizy. Domena może być pojedynczą domeną zamapowana na jedno pole lub może być domeną złożoną składającą się z wielu pojedynczych domen, z których każda jest mapowana na część danych w jednym polu (zobacz "Domeny złożone" poniżej). Po uruchomieniu odnajdywania wiedzy DQS wyodrębnia informacje o jakości danych z przykładowych danych do domen w bazie wiedzy. Po uruchomieniu analizy odnajdywania wiedzy będziesz mieć bazę wiedzy, za pomocą której można przeprowadzić korektę danych.
Baza wiedzy DQS jest rozszerzalna. W ramach działania Odnajdywanie wiedzy możesz interaktywnie dodać wiedzę do bazy wiedzy po analizie odnajdywania wiedzy wspomaganej przez komputer. Możesz ręcznie dodać zmiany wartości i zaimportować wartości domeny z pliku programu Excel. Ponadto można ponownie uruchomić proces odnajdywania wiedzy w późniejszym momencie, jeśli dane w przykładzie uległy zmianie. Możesz zastosować więcej wiedzy z poziomu działania Zarządzanie domeną i z poziomu działania Dopasowywanie danych (zobacz poniżej).
Proces odnajdywania wiedzy nie musi być wykonywany na tych samych danych, na których jest wykonywana korekta danych. DQS zapewnia elastyczność tworzenia wiedzy na podstawie jednego zestawu pól bazy danych i stosowania ich do drugiego zestawu powiązanych danych, które należy oczyścić. Steward danych może utworzyć nową bazę wiedzy od podstaw, opierać ją na istniejącej bazie wiedzy lub importować bazę wiedzy z pliku danych. Możesz również ponownie uruchomić odnajdywanie wiedzy w istniejącej bazie wiedzy. Można obsługiwać wiele baz wiedzy na jednym serwerze jakości danych. Możesz również połączyć wiele wystąpień aplikacji z tą samą bazą wiedzy. DQS zapobiega konfliktom współbieżności przez zablokowanie bazy wiedzy użytkownikowi, który otworzy go w sesji zarządzania wiedzą.
Nieodróżnianie wielkości liter w DQS
Wartości w DQS są bez uwzględniania wielkości liter. Oznacza to, że gdy DQS wykonuje odkrywanie wiedzy, zarządzanie domeną lub dopasowywanie, nie rozróżnia wartości z uwagi na wielkość liter. Jeśli dodasz wartość w zarządzaniu wartościami, która różni się od innej wartości jedynie wielkością liter, będą uznane za tę samą wartość, a nie za synonimy. Jeśli w procesie dopasowywania są porównywane dwie wartości, które różnią się tylko wielkością liter, zostaną one uznane za dokładne dopasowanie.
Można jednak kontrolować wielkość wartości eksportowanych w wynikach czyszczenia. W tym celu należy ustawić właściwość Formatuj dane wyjściowe na domenę (zobacz Ustawianie właściwości domeny) i przy użyciu pola wyboru Ustandaryzuj dane wyjściowe podczas eksportowania wyników czyszczenia (zobacz Oczyszczanie danych przy użyciu wiedzy DQS (wewnętrznej).
Zarządzanie domenami
Zarządzanie domenami umożliwia stewardowi danych interaktywną zmianę i rozszerzanie metadanych generowanych przez działanie odnajdywania wiedzy wspomaganego przez komputer. Każda wprowadzana zmiana dotyczy domeny bazy wiedzy. W działaniu zarządzania domeną można wykonać następujące czynności:
Utwórz nową domenę. Nową domenę można połączyć z istniejącą domeną lub skopiować z istniejącej domeny.
Ustaw właściwości domeny, które mają zastosowanie do każdego terminu w domenie.
Zastosuj reguły domeny, które wykonują walidację lub standaryzację dla zakresu zdefiniowanych wartości.
Interakcyjne stosowanie zmian do dowolnej określonej wartości danych w domenie.
Użyj funkcji sprawdzania pisowni DQS, aby sprawdzić składnię, pisownię i strukturę zdań wartości ciągu.
Zaimportuj domenę z pliku danych dqs lub wartości domeny z pliku programu Microsoft Excel.
Zaimportuj wartości znalezione przez proces czyszczenia w projekcie jakości danych z powrotem do bazy wiedzy.
Dołącz domenę do danych referencyjnych obsługiwanych przez dostawcę danych referencyjnych z wynikiem, że wartości domeny są porównywane z danymi referencyjnymi w celu określenia ich integralności i poprawności. Można również ustawić ustawienia dostawcy danych.
Stosowanie relacji opartych na terminach dla jednej domeny.
Po zakończeniu działania zarządzania domeną można opublikować bazę wiedzy do użycia w projekcie danych.
Ustawianie właściwości domeny
Właściwości domeny definiują i napędzają przetwarzanie, które zostanie zastosowane do skojarzonych wartości. Można ustawić typ danych i język wartości, określić, że dane źródłowe zostaną oczyszczone z wartości wiodącej (jeśli ta opcja nie jest zaznaczona, dane źródłowe zostaną oczyszczone z poprawnego terminu, ale nie z wartością wiodącą), zapewnij standaryzację danych, konfigurując formatowanie, które będzie stosowane, gdy wartości danych w domenie są danymi wyjściowymi, i zdefiniuj, które algorytmy (błąd składniowy, pisownia i normalizacja ciągu) zostaną zastosowane.
Usługi danych referencyjnych
W procesie zarządzania domeną można dołączyć dane referencyjne online do domeny. W ten sposób porównujesz dane w domenie z danymi obsługiwanymi przez dostawcę danych referencyjnych. Najpierw należy skonfigurować dostawcę danych referencyjnych za pomocą funkcji konfiguracji DQS w sekcji Administracja aplikacji klienckiej jakości danych. Aby uzyskać więcej informacji, zobacz Reference Data Services in DQS (Usługi danych referencyjnych w usługach DQS).
Stosowanie reguł domeny
Reguły domeny można utworzyć na potrzeby walidacji danych. Reguła domeny zapewnia dokładność danych, począwszy od podstawowego ograniczenia, na przykład możliwych terminów, które mogą być wartością ciągu, do bardziej złożonego wyrażenia regularnego, takiego jak prawidłowe formy adresu e-mail.
W przypadku domeny złożonej można utworzyć regułę CD, która określa relację między wartością w jednej pojedynczej domenie a wartością w innej pojedynczej domenie, z których obie są częścią domeny złożonej.
Ustawianie wartości domeny
Po utworzeniu bazy wiedzy można wypełnić i wyświetlić wartości danych w każdej domenie bazy wiedzy. Po odnalezieniu wiedzy DQS pokaże, ile razy pojawia się każdy termin, jaki jest stan każdego terminu i jakie poprawki proponuje. Tę wiedzę można zarządzać w następujący sposób:
Zmiana statusu wartości na poprawny, błędny lub nieprawidłowy.
Dodawanie określonej wartości do bazy wiedzy lub usuwanie określonej wartości z bazy wiedzy
Zmiana relacji jednej wartości na inną, w tym wyznaczenie zastąpienia terminu, który jest błędny lub nieprawidłowy
Dodawanie, usuwanie lub zmienianie wiedzy skojarzonej z domeną.
Wartości mogą być tworzone specjalnie przez użytkownika lub w ramach funkcji odnajdywania lub importowania danych. Dzięki temu można dostosować domenę do firmy i łatwo ją rozszerzać.
Wartości domeny można ustawić w działaniu zarządzania domeną lub w kroku Zarządzanie wartościami domeny na końcu działania odnajdywania wiedzy. Funkcjonalność wartości domenowych jest taka sama w obu działaniach.
Ustawianie relacji terminów
W zarządzaniu domenami można określić relację opartą na terminach dla pojedynczej domeny, określając zmianę pojedynczej wartości.
Domeny złożone
Domena złożona to struktura składająca się z co najmniej dwóch pojedynczych domen, z których każda zawiera wiedzę na temat wspólnych danych. Przykłady danych, które mogą być adresowane przez domeny złożone, to pierwsze, środkowe i rodzinne nazwy w polu nazwy oraz numer domu i ulica, miasto, stan, kod pocztowy i kraj/region w polu adresu. Podczas mapowania pojedynczego pola na domenę złożoną DQS analizuje dane z jednego pola do wielu domen tworzących złożony obiekt.
Czasami pojedyncza domena nie reprezentuje danych pól w całości. Grupowanie co najmniej dwóch domen w domenie złożonej może umożliwić efektywne reprezentowanie danych. Poniżej przedstawiono zalety korzystania z domen złożonych:
Analizowanie różnych pojedynczych domen tworzących domenę złożoną może być bardziej efektywnym sposobem oceny jakości danych.
W przypadku korzystania z domeny złożonej można również utworzyć reguły obejmujące wiele domen, które umożliwiają sprawdzenie, czy relacja między danymi w wielu domenach jest odpowiednia. Możesz na przykład sprawdzić, czy ciąg "Londyn" w domenie miasta odpowiada ciągowi "Wielka Brytania" w domenie kraju/regionu. Należy pamiętać, że reguły między domenami są brane pod uwagę po regułach domeny.
Dane w domenach złożonych mogą być dołączane do źródła danych referencyjnych, w tym przypadku domena złożona zostanie wysłana do dostawcy danych referencyjnych. Jest to często wykonywane przy użyciu danych adresowych.
Sposób analizowania danych reprezentowanych przez domenę złożoną zależy od właściwości domeny złożonej. Dane mogą być analizowane przez ogranicznik, według kolejności domen lub na podstawie wiedzy w domenach dołączonych do domeny złożonej (wybierając właściwość Użyj analizy opartej na wiedzy w domenie złożonej). Aby uzyskać więcej informacji, zobacz Ustawianie właściwości domeny złożonej.
Domeny złożone są zarządzane inaczej niż pojedyncze domeny. Wartości nie są zarządzane w domenie złożonej; Należy to zrobić w przypadku pojedynczych domen składających się na domenę złożoną. Jednak z listy domen w działaniu Zarządzanie domenami można zobaczyć relacje między różnymi wartościami w domenie złożonej i statystykami, które mają zastosowanie do nich. Można na przykład zobaczyć, ile wystąpień ma jeden adres składający się z tych samych pięciu wartości ciągu. W kroku odkrywania wiedzy w ramach procesu Odkrywanie wiedzy, profilowanie jest wykonywane na pojedynczych domenach w ramach domeny złożonej, a nie na samej domenie złożonej. Jednak w przypadku interaktywnego czyszczenia dane są czyszczone w domenie złożonej, a nie w pojedynczych domenach.
Dopasowanie można wykonać w pojedynczych domenach składających się na domenę złożoną, ale nie na samej domenie złożonej.
Dopasowywanie danych
Oprócz ręcznego wprowadzania zmian w bazie wiedzy za pomocą zarządzania domenami można dodać zgodną wiedzę do bazy wiedzy. Aby przygotować DQS do procesu deduplikacji danych, należy utworzyć pasujące zasady, które będą używane przez DQS do obliczenia prawdopodobieństwa dopasowania. Zasady obejmują co najmniej jedną regułę dopasowania utworzoną przez stewarda danych w celu zidentyfikowania sposobu porównywania wierszy danych przez funkcję DQS. Steward danych określa, które pola danych w wierszu powinny być porównywane, i jaką wagę każde pole powinno mieć w porównaniu. Steward danych określi również, jak wysokie powinno być prawdopodobieństwo, aby uznać je za dopasowanie. DQS dodaje reguły dopasowania do bazy wiedzy do wykorzystania przy realizacji działań dopasowujących w projekcie poprawy jakości danych.
Aby uzyskać więcej informacji na temat bazy wiedzy i dopasowywania danych, zobacz Dopasowywanie danych.
W tej Sekcji
Następujące operacje można wykonać w bazie wiedzy i jej domenach:
| Opis operacji | Temat |
|---|---|
| Twórz, otwieraj, dodawaj wiedzę do bazy wiedzy oraz przeprowadzaj w niej odkrycia | Tworzenie bazy wiedzy |
| Wykonywanie operacji importowania i eksportowania w domenach i bazach wiedzy | Importowanie i eksportowanie wiedzy |
| Tworzenie jednej domeny, reguły domeny, relacji opartych na terminach i zmienianie wartości domeny | Zarządzanie domeną |
| Tworzenie domeny złożonej, tworzenie reguły między domenami i używanie relacji wartości | Zarządzanie domeną złożoną |
| Użyj domyślnej bazy wiedzy danych DQS wbudowanej w DQS | Korzystanie z domyślnej bazy wiedzy DQS |