Udostępnij przez


Klasyfikacja danych

Ważne

Ta funkcja jest dostępna w publicznej wersji testowej.

Na tej stronie opisano sposób używania Databricks Data Classification w Unity Catalog do automatycznego klasyfikowania i oznaczania poufnych danych.

Wykazy danych mogą mieć ogromną ilość danych, często zawierających znane i nieznane dane poufne. Kluczowe jest, aby zespoły ds. danych rozumiały, jaki rodzaj wrażliwych danych znajduje się w każdej tabeli, aby mogły zarówno zarządzać, jak i demokratyzować dostęp do tych danych.

Aby rozwiązać ten problem, klasyfikacja danych usługi Databricks używa agenta sztucznej inteligencji do automatycznego klasyfikowania i tagowania tabel w katalogu. Dzięki temu można odkrywać poufne dane i stosować mechanizmy kontroli zarządzania nad wynikami przy użyciu narzędzi, takich jak kontrola dostępu oparta na atrybutach (ABAC) katalogu Unity. Aby uzyskać listę obsługiwanych tagów, zobacz Obsługiwane tagi klasyfikacji.

Korzystając z tej funkcji, możesz:

  • Klasyfikowanie danych: Silnik używa systemu agentowej sztucznej inteligencji do automatycznego klasyfikowania i oznaczania dowolnych tabel w katalogu Unity.
  • Optymalizowanie kosztów dzięki inteligentnemu skanowaniu: System inteligentnie określa, kiedy skanować dane, wykorzystując katalog Unity i silnik analizy danych. Oznacza to, że skanowanie jest przyrostowe i zoptymalizowane, aby zapewnić klasyfikację wszystkich nowych danych bez potrzeby ręcznej konfiguracji.
  • Przeglądanie i ochrona poufnych danych: wyświetlane wyniki ułatwiają wyświetlanie wyników klasyfikacji i ochronę poufnych danych przez tagowanie i tworzenie zasad kontroli dostępu dla każdej klasy.

Ważne

Klasyfikacja danych usługi Databricks używa domyślnego magazynu do przechowywania wyników klasyfikacji. Nie są naliczane opłaty za magazyn.

Klasyfikacja danych usługi Databricks używa dużego modelu językowego (LLM), aby pomóc w klasyfikacji.

Wymagania

Uwaga / Notatka

Klasyfikacja danych jest funkcją wersji zapoznawczej na poziomie obszaru roboczego i może być zarządzana tylko przez administratora obszaru roboczego lub konta. Aby uzyskać instrukcje, zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Ważne

Model obsługujący tę funkcję jest udostępniany za pomocą interfejsów API Mosaic AI Model Serving Foundation Model. Llama 3.1 jest licencjonowana na licencji Community License Llama 3.1, Copyright © Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Aby uzyskać więcej informacji, zobacz Odpowiednie licencje i postanowienia dla deweloperów modeli .

Jeśli modele pojawią się w przyszłości, które działają lepiej zgodnie z wewnętrznymi testami porównawczymi usługi Databricks, usługa Databricks może zmienić modele i zaktualizować dokumentację.

  • Musisz mieć włączone przetwarzanie bezserwerowe. Zobacz Połącz się z bezserwerową chmurą obliczeniową.
  • Aby włączyć klasyfikację danych, musisz posiadać wykaz lub mieć na nim uprawnienia USE_CATALOG i MANAGE.
  • Aby wyświetlić tabelę wyników, musisz mieć następujące uprawnienia: USE CATALOG i USE SCHEMA, plus SELECT w tabeli. Zobacz tabelę systemu wyników.

Używanie klasyfikacji danych

Aby użyć klasyfikacji danych w wykazie:

  1. Przejdź do katalogu i kliknij kartę Szczegóły .

    Zakładka Szczegóły strony katalogu w Eksploratorze katalogu.

  2. Kliknij przełącznik Klasyfikacja danych , aby ją włączyć.

  3. Zostanie wyświetlone okno dialogowe Włączanie klasyfikacji danych . Domyślnie wszystkie schematy są uwzględniane. Aby uwzględnić tylko niektóre schematy, wybierz je w menu rozwijanym Do uwzględnienia.

    Ustawienia modalne dla klasyfikacji danych.

  4. Kliknij przycisk Włącz.

Spowoduje to utworzenie zadania w tle, które przyrostowo skanuje wszystkie tabele w wykazie lub wybranych schematach.

Aparat klasyfikacji opiera się na inteligentnym skanowaniu w celu określenia, kiedy należy skanować tabelę. Nowe tabele i kolumny w wykazie są zwykle skanowane w ciągu 24 godzin od utworzenia.

Wyświetlanie wyników klasyfikacji

Aby wyświetlić wyniki klasyfikacji, kliknij pozycję Zobacz wyniki obok przełącznika.

Zobacz przycisk wyników dla klasyfikacji danych.

Zostanie otwarta strona wyników zawierająca wyniki klasyfikacji dla wszystkich tabel w wykazie. Aby wybrać inny wykaz, użyj selektora w lewym górnym rogu strony. Wymagany jest bezserwerowy magazyn SQL Warehouse, który pojawia się w prawym górnym rogu strony.

Strona wyników zawiera listę wszystkich tagów klasyfikacji, które zostały zidentyfikowane w wykazie. Wszystkie istniejące zasady ABAC odwołujące się do tagów systemu klasyfikacji danych (class.xx) są wyświetlane w tabeli.

Strona wyników przedstawiająca tabelę wykrytych klas.

Aby przejrzeć wyniki dla określonego tagu klasyfikacji, kliknij pozycję Przejrzyj w najbardziej prawej kolumnie odpowiedniego wiersza.

Wyniki przedstawiające kolumny z wykrytymi klasyfikacjami.

Pojawi się panel, wyświetlając tabele, dla których klasyfikacja danych wykryła tag klasyfikacji z dużą pewnością. Przejrzyj tabele, kolumny i przykładowe wartości. Przykładowe wartości są wyświetlane tylko wtedy, gdy masz dostęp do tabeli wyników. Zobacz tabelę systemu wyników.

Jeśli zidentyfikowane kolumny pasują do Twoich oczekiwań, możesz włączyć automatyczne tagowanie dla tagu klasyfikacji dla tego wykazu. Po włączeniu automatycznego tagowania wszystkie istniejące i przyszłe wykrycia tej klasyfikacji są oznaczane.

Aby włączyć automatyczne tagowanie, przełącz automatyczne tagowanie za pomocą polecenia .... Później można wyłączyć automatyczne tagowanie przy użyciu tego samego przełącznika. Po wyłączeniu tagowania nie są stosowane żadne przyszłe tagi, ale istniejące tagi nie są usuwane.

Uwaga / Notatka

Po włączeniu automatycznego tagowania, tagi nie są natychmiast uzupełniane. Zostaną one wypełnione w następnym skanowaniu, co powinno nastąpić w ciągu 24 godzin. Kolejne klasyfikacje zostaną oznaczone natychmiast.

Tabela systemu wyników

Klasyfikacja danych tworzy tabelę systemową o nazwie system.data_classification.results do przechowywania wyników, które domyślnie są dostępne tylko dla administratora konta. Administrator konta może udostępnić tę tabelę. Tabela jest dostępna tylko wtedy, gdy używasz bezserwerowych obliczeń. Aby uzyskać szczegółowe informacje na temat tej tabeli, zobacz Dokumentacja tabeli systemu klasyfikacji danych.

Ważne

Tabela system.data_classification.results wyników zawiera wszystkie wyniki klasyfikacji w całym magazynie metadanych i zawiera przykładowe wartości z tabel w każdym wykazie. Tę tabelę należy udostępnić tylko użytkownikom uprzywilejowanym, aby wyświetlić wyniki klasyfikacji dla całego magazynu metadanych, w tym przykładowe wartości.

Do wyświetlenia tabeli wyników są wymagane następujące uprawnienia: USE CATALOG, USE SCHEMA, oraz SELECT w tabeli. Użytkownicy z dostępem do katalogu MANAGE lub SELECT mogą wyświetlać wyniki na stronie, ale nie mogą widzieć przykładowych wartości.

Skonfiguruj kontrole zarządzania na podstawie wyników klasyfikacji danych

Maskuj poufne dane przy użyciu zasad ABAC

Databricks zaleca używanie atrybutowej kontroli dostępu (ABAC) w Unity Catalog w celu tworzenia mechanizmów kontroli ładu na podstawie wyników klasyfikacji danych.

Aby utworzyć zasady, kliknij pozycję Nowe zasady. Formularz zasad jest wstępnie wypełniony w celu maskowania kolumn z przeglądanym tagiem klasyfikacji. Aby zamaskować dane, określ dowolną funkcję maskowania zarejestrowaną w katalogu Unity i kliknij przycisk Zapisz.

Można również utworzyć zasady, które obejmują wiele tagów klasyfikacji, zmieniając kolumnę Whenna spełnia warunek i podając wiele tagów.

Aby na przykład utworzyć politykę o nazwie "Poufne", która maskuje każdą nazwę, adres e-mail lub numer telefonu, ustaw warunek spełnia wartośćhasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").

Odnajdywanie i usuwanie danych zgodnie z RODO

W tym przykładzie notesie pokazano, jak można użyć klasyfikacji danych, aby ułatwić odnajdywanie i usuwanie danych w celu zapewnienia zgodności z RODO.

Odnajdywanie i usuwanie RODO przy użyciu notesu klasyfikacji danych

Pobierz laptopa

Jak obsługiwać niepoprawne tagi

Jeśli dane są niepoprawnie oznakowane, możesz ręcznie usunąć tag. Tag nie zostanie ponownie zaaplikowany w przyszłych skanowaniach.

Aby usunąć tag przy użyciu interfejsu użytkownika, przejdź do tabeli w Eksploratorze wykazu i edytuj tagi kolumn.

Aby usunąć tag przy użyciu języka SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Błędy skanowania

Jeśli podczas skanowania wystąpią jakiekolwiek błędy, w prawym górnym rogu tabeli wyników pojawi się przycisk Błędy .

Strona wyników z przyciskiem Błędy w prawym górnym rogu tabeli.

Kliknij przycisk, aby wyświetlić tabele, które zakończyły się niepowodzeniem skanowania i skojarzonymi komunikatami o błędach.

Błędy skanowania tabeli klasyfikacji danych.

Domyślnie błędy, które wystąpiły dla poszczególnych tabel, są pomijane i ponawiane następnego dnia.

Wyświetlanie wydatków dotyczących klasyfikacji danych

Aby dowiedzieć się, jak jest rozliczana klasyfikacja danych, zobacz stronę cennika. Możesz wyświetlić wydatki związane z klasyfikacją danych, uruchamiając zapytanie lub wyświetlając pulpit nawigacyjny użycia.

Uwaga / Notatka

Początkowe skanowanie jest bardziej kosztowne niż kolejne skanowania w tym samym wykazie, ponieważ te skanowania są przyrostowe i zwykle wiążą się z niższymi kosztami.

Wyświetl użycie z tabeli systemowej system.billing.usage

Możesz wykonać zapytanie dotyczące wydatków na klasyfikację danych z witryny system.billing.usage. Pola created_by i catalog_id mogą służyć opcjonalnie do podziału kosztów:

  • created_by: Uwzględnij, aby zobaczyć koszty poniesione przez użytkownika, który zainicjował użycie.
  • catalog_id: Uwzględnij, aby wyświetlić koszty według katalogu. Identyfikator katalogu jest wyświetlany w tabeli system.data_classification.results.

Przykładowe zapytanie z ostatnich 30 dni:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Wyświetlanie użycia z pulpitu nawigacyjnego

Jeśli masz już panel kontrolny użycia skonfigurowany w obszarze roboczym, możesz go użyć do filtrowania użycia, wybierając projekt rozliczeniowy oznaczony jako "Klasyfikacja danych". Jeśli nie masz skonfigurowanego pulpitu kontrolnego użycia, możesz go zaimportować i zastosować to samo filtrowanie. Aby uzyskać szczegółowe informacje, zobacz Panele użycia.

Obsługiwane tagi klasyfikacji

W poniższych tabelach wymieniono tagi zarządzane przez system obsługiwane przez klasyfikację danych.

Tagi dostępne dla klientów globalnych

Klasa Opis
class.credit_card Numer karty kredytowej
klasa.adres_email Adres e-mail
class.iban_code Numer konta bankowego (IBAN)
class.ip_address Adres protokołu internetowego (IPv4 lub IPv6)
klasa.lokalizacja Lokalizacja
class.name Imię i nazwisko osoby
class.phone_number Numer telefonu
class.url adres URL
class.us_bank_number Numer banku USA
class.us_driver_license Prawo jazdy w USA
class.us_itin Amerykański indywidualny numer identyfikacyjny podatnika
class.us_passport Paszport USA
class.us_ssn Amerykański numer ubezpieczenia społecznego
class.vin Numer identyfikacyjny pojazdu (VIN)

Tagi dostępne dla klientów europejskich

Te tagi są dostępne w obszarach roboczych w regionach Europy.

Klasa Opis
class.de_id_card Niemiecki numer karty identyfikacyjnej (Personalausweisnummer)
class.de_svnr Niemiecki numer ubezpieczenia społecznego (Sozialversicherungsnummer)
class.de_tax_id Niemiecki identyfikator podatkowy (Steueridentifikationsnummer)
class.uk_nhs Numer brytyjskiej służby zdrowia narodowego (NHS)
class.uk_nino Brytyjski numer ubezpieczenia narodowego (NINO)

Tagi dostępne dla klientów australijskich

Te tagi są dostępne w obszarach roboczych w regionach w Australii.

Klasa Opis
class.au_medicare Australijski numer karty Medicare
class.au_tfn Australijski numer pliku podatkowego (TFN)

Ograniczenia

  • Widoki i widoki metryk nie są obsługiwane. Jeśli widok jest oparty na istniejących tabelach, usługa Databricks zaleca klasyfikowanie bazowych tabel, aby sprawdzić, czy zawierają poufne dane.