Nadzór nad danymi przy użyciu wykazu aparatu Unity i usługi Microsoft Purview

Zakończone

Nadzór nad danymi ma kluczowe znaczenie dla zapewnienia, że dane w organizacji są zarządzane bezpiecznie, wydajnie i zgodnie z przepisami.

W wielu organizacjach dane są dystrybuowane między bazami danych, magazynami danych, jeziorami danych, a nawet wieloma katalogami. Istnieje również w różnych formatach, takich jak Parquet, CSV i Delta Lake. Poza danymi ustrukturyzowanymi w tabelach istnieją również dane bez struktury w plikach, a także inne zasoby, takie jak modele uczenia maszynowego, notesy i pulpity nawigacyjne, które wymagają zarządzania i ładu. Ta fragmentacja tworzy silosy między źródłami, formatami i typami zasobów.

Te wyzwania związane z zarządzaniem mają bezpośredni wpływ na wartość, jaką organizacje mogą czerpać z danych i sztucznej inteligencji.

  • Pofragmentowany ład zwiększa poziom zgodności, zabezpieczeń i jakości danych, a jednocześnie tworzy nieefektywność operacyjną, ponieważ zespoły mają trudności z zachowaniem spójnego widoku danych i środowisk sztucznej inteligencji.

  • Ograniczona łączność może spowodować zablokowanie dostawcy i utrudnić wdrożenie nowych technologii w miarę zmiany wymagań. Słabe współdziałanie komplikuje również współpracę i skalowanie, co często prowadzi do wyższych kosztów wynikających z użycia wielu narzędzi i duplikowania danych w różnych systemach.

  • Brak wbudowanej analizy ogranicza szersze wykorzystanie danych i platform sztucznej inteligencji, szczególnie w przypadku użytkowników nietechnicznych. Spowalnia to innowacje, opóźnia podejmowanie decyzji i uniemożliwia organizacjom pełne realizowanie korzyści z ich danych i inwestycji w sztuczną inteligencję.

Usługa Azure Databricks w połączeniu z katalogiem aparatu Unity i usługą Microsoft Purview zapewnia niezawodne rozwiązanie do efektywnego zarządzania danymi i zarządzania nimi.

Katalog Unity

Unity Catalog zapewnia scentralizowany sposób zarządzania dostępem, wyszukiwaniem, śledzeniem pochodzenia, dziennikami audytu i monitorowaniem jakości w zasobami danych i sztucznej inteligencji w Azure Databricks. Stosuje się je spójnie we wszystkich obszarach roboczych w regionie.

Diagram składników wykazu aparatu Unity.

Magazyn metadanych jest kontenerem metadanych najwyższego poziomu; zawiera informacje o zasobach danych i uprawnieniach, które je zarządzają. Zazwyczaj istnieje jeden magazyn metadanych na region, a wiele obszarów roboczych może współużytkować ten magazyn metadanych.

Unity Catalog organizuje zasoby danych przy użyciu ustrukturyzowanej hierarchii trójpoziomowej:

catalog.schema.table_or_other_object
  • Katalogi zwykle grupują zasoby dopasowane do zespołów lub środowisk.
  • Schematy (nazywane również bazami danych) są podziałami w katalogach, organizując zasoby bardziej szczegółowe — na przykład według projektu lub przypadku użycia.
  • Obiekty w schematach obejmują tabele (zarządzane lub zewnętrzne), widoki, woluminy, funkcje i modele.

Tabele mogą być zarządzane lub zewnętrzne. W przypadku tabel zarządzanych Katalog Unity obsługuje zarówno zarządzanie, jak i przechowywanie (zawsze format Delta Lake). W przypadku tabel zewnętrznych Unity Catalog zarządza dostępem z usługi Databricks, ale zarządzanie cyklem życia i magazynowaniem danych odbywa się zewnętrznie. Obsługuje to wiele formatów (delta, CSV, JSON, Parquet itp.)

Katalog Unity implementuje szczegółową kontrolę dostępu za pośrednictwem poleceń ANSI SQL na wielu poziomach — metastore, katalog, schemat, aż po wiersze i kolumny. Na przykład następujące polecenie daje grupie użytkowników "finance-team" uprawnienie do tworzenia nowych tabel w bazie danych "myschema" w bazie danych "mycatalog".

GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;

Eksplorowanie zasobów danych w Unity Catalog jest proste. Aby znaleźć potrzebne elementy, możesz użyć Eksploratora wykazu i interfejsu wyszukiwania. Aby ci pomóc, zasoby mają tagi, komentarze, a nawet opisy generowane przez sztuczną inteligencję. Po znalezieniu zasobu danych możesz użyć funkcji, takich jak pochodzenie, szczegółowe informacje o tabelach i diagramy relacji jednostki, aby lepiej je zrozumieć.

Katalog Unity zapewnia pełny obraz historii twoich danych. Rejestruje dostęp, ścieżki audytu i pochodzenie danych — aż do poziomu kolumny.

W większości przypadków Unity Catalog jest domyślnie włączony podczas tworzenia obszaru roboczego. Możesz rozpocząć korzystanie z Katalogu Unity z ustawieniami domyślnymi. Istnieją jednak opcjonalne konfiguracje, które można włączyć.

Microsoft Purview

Microsoft Purview to usługa zarządzania danymi, która umożliwia zarządzanie i nadzorowanie danych w systemach lokalnych, chmurach i platformach SaaS. Obejmuje ona funkcje, takie jak odnajdywanie danych, klasyfikacja, śledzenie pochodzenia i zarządzanie dostępem.

Po zintegrowaniu z usługami Azure Databricks i Unity Catalog usługa Purview może odnajdywać dane usługi Lakehouse i pozyskiwać metadane do mapy danych. Dzięki temu można zastosować spójny nadzór w całym środowisku danych, działając jako centralny wykaz, który łączy metadane z różnych źródeł.

Dzięki tej integracji możesz wykonywać następujące czynności:

  • Skanuj Azure Databricks w sieciach publicznych i prywatnych, obsługiwanych przez w pełni zarządzane środowisko Microsoft Purview integration runtime.
  • Przeskanuj cały skład metadanych Unity Catalog lub wybierz skanowanie wybranych katalogów.
  • Wyciągnąć kompleksowy zestaw metadanych Unity Catalog, w tym szczegóły metastore, katalogów, schematów, tabel/widoków i kolumn itp.
  • Automatyczne klasyfikowanie danych na podstawie wbudowanych reguł klasyfikacji systemu lub niestandardowych reguł klasyfikacji zdefiniowanych przez użytkownika w celu identyfikowania poufnych danych.
  • Uzyskaj szczegółowy wgląd w pochodzenie danych, pokazując sposób przekształcania i przenoszenia danych między różnymi systemami i procesami, w tym w usłudze Azure Databricks.
  • Uruchom skanowanie na żądanie lub według dziennego/tygodniowego/miesięcznego harmonogramu cyklicznego.

Zrzut ekranu Microsoft Purview pokazujący metadane tabeli Azure Databricks.

Ponadto usługa Microsoft Purview może skanować magazyn metadanych Hive na poziomie obszaru roboczego w usłudze Azure Databricks.