Udostępnij przez


Uaktualnij obszary robocze usługi Azure Databricks do Unity Catalog.

Ta strona zawiera omówienie sposobu aktualizacji obszaru roboczego niewykorzystującego Unity Catalog na Unity Catalog. Zawiera również instrukcje dotyczące migrowania ze starszego magazynu metadanych Hive z lokalnego obszaru roboczego.

Omówienie kroków uaktualniania

Aby przeprowadzić uaktualnienie do Unity Catalog, musisz:

  1. Aprowizuj tożsamości (użytkowników, grupy i jednostki usługi) bezpośrednio na koncie usługi Azure Databricks, jeśli jeszcze tego nie zrobisz. Wyłącz udostępnianie tożsamości na poziomie obszaru roboczego.
  2. Przekonwertuj wszystkie grupy obszarów roboczych na grupy na poziomie konta. Usługa Unity Catalog centralizuje zarządzanie tożsamościami na poziomie całego konta.
  3. Dołącz przestrzeń roboczą do Unity Catalog metastore. Jeśli dla regionu obszaru roboczego nie istnieje żaden magazyn metadanych, administrator konta musi go utworzyć.
  4. Uaktualnij tabele i widoki zarządzane w metastore Hive do Unity Catalog.
  5. Udziel użytkownikom, grupom lub jednostkom usługi dostępu na poziomie konta do uaktualnionych tabel.
  6. Zaktualizuj zapytania i zadania, aby odwoływać się do nowych tabel Unity Catalog zamiast starych tabel Hive metastore.
  7. Wyłącz magazyn metadanych Hive. Zobacz Wyłączanie dostępu do magazynu metadanych Hive używanego przez obszar roboczy usługi Azure Databricks.

UCX, projekt Databricks Labs, udostępnia narzędzia, które ułatwiają uaktualnienie obszaru roboczego niekorzystającego z Unity Catalog do Unity Catalog. UCX to dobry wybór w przypadku migracji na większą skalę. Zobacz Użyj narzędzi UCX, aby uaktualnić swój obszar roboczy do Unity Catalog.

Przed rozpoczęciem

Przed rozpoczęciem zapoznaj się z podstawowymi pojęciami dotyczącymi katalogu Unity Catalog, w tym magazynami metadanych i magazynem zarządzanym. Zobacz Co to jest Unity Catalog?.

Należy również potwierdzić, że spełniasz następujące wymagania:

  • W przypadku większości kroków konfiguracji musisz być administratorem konta usługi Azure Databricks. W przypadku każdego zadania, które jest zgodne z innymi wymaganiami dotyczącymi uprawnień, są one wymienione w dokumentacji specyficznej dla zadania.

    Pierwszym administratorem konta usługi Azure Databricks musi być globalny administrator Microsoft Entra ID podczas pierwszego zalogowania się do konsoli konta usługi Azure Databricks. Po pierwszym zalogowaniu użytkownik staje się administratorem konta usługi Azure Databricks i nie potrzebuje już roli administratora globalnego microsoft Entra ID, aby uzyskać dostęp do konta usługi Azure Databricks. Pierwszy administrator konta może przypisać użytkowników dzierżawy Microsoft Entra ID do roli dodatkowych administratorów kont, którzy sami mogą przypisywać kolejnych administratorów kont. Dodatkowi administratorzy kont nie wymagają określonych ról w identyfikatorze Entra firmy Microsoft.

  • Obszary robocze dołączane do magazynu metadanych muszą znajdować się w planie usługi Azure Databricks Premium.

Uaktualnij do demonstracji Unity Catalog

Obejrzyj następujące krótkie pokazy instruktażowe, aby zobaczyć kluczowe zadania uaktualniania w praktyce. W każdym pokazie opisano konkretny krok i linki do szczegółowej dokumentacji, jeśli ma to zastosowanie.

Alternatywnie możesz skorzystać z pokazu Use UCX to upgrade to Unity Catalog (Używanie interfejsu UCX do uaktualnienia do wykazu aparatu Unity).

Dostarcz użytkowników, grupy i główne elementy usługi do swojego konta

Katalog Unity odnosi się do tożsamości na poziomie konta. Przed dołączeniem magazynu metadanych do obszaru roboczego należy wykonać następujące czynności:

  • Jeśli używasz rozwiązania SCIM do aprowizowania użytkowników, grup i jednostek usługi z dostawcy tożsamości do obszaru roboczego, wyłącz go i skonfiguruj aprowizację na koncie usługi Azure Databricks. Zobacz Synchronizowanie tożsamości z dostawcą tożsamości i Tożsamości.

  • Zaktualizuj wszystkie automatyzacje skonfigurowane do zarządzania użytkownikami, grupami i podmiotami usługi, takimi jak łączniki aprowizacji SCIM i automatyzacja Terraform, aby odwoływały się do punktów końcowych konta zamiast punktów końcowych obszaru roboczego. Zobacz Aprowizowanie SCIM na poziomie konta i obszaru roboczego.

Przekształcanie grup lokalnych środowiska roboczego na grupy na poziomie konta użytkownika

Zobacz Migrowanie grup lokalnych w przestrzeni roboczej do grup kont.

Dołączanie obszaru roboczego do magazynu metadanych

Jeśli obszar roboczy nie jest włączony do Unity Catalog (związany z metasklepem), następny krok zależy od tego, czy masz już zdefiniowany metasklep Unity Catalog dla regionu obszaru roboczego:

  • Jeśli twoje konto ma już zdefiniowany katalog Unity dla regionu obszaru roboczego, możesz po prostu dołączyć obszar roboczy do istniejącego katalogu. Przejdź do Włącz obszar roboczy dla Unity Catalog.
  • Jeśli nie ma magazynu Unity Catalog zdefiniowanego dla regionu obszaru roboczego, musisz utworzyć magazyn, a następnie połączyć z obszarem roboczym. Przejdź do utworzenia metamagazynu Unity Catalog.

Zaktualizuj tabele w metastore Hive do tabel Unity Catalog

Jeśli obszar roboczy był w użyciu, zanim włączono dla niego Unity Catalog, to posiada on metastore Hive, który prawdopodobnie zawiera dane, z których chcesz nadal korzystać. Databricks zaleca uaktualnienie tabel zarządzanych przez magazyn metadanych Hive do magazynu metadanych Unity Catalog.

Można stopniowo aktualizować, poprzez federację magazynu metadanych Hive. Zobacz następną sekcję.

Tabele można uaktualnić bezpośrednio, korzystając z instrukcji w Upgrade Hive tables and views to Unity Catalog.

(Opcjonalnie) Sfederuj katalog metadanych Hive, aby dalej z nim pracować

Jeśli twój obszar roboczy ma magazyn metadanych Hive zawierający dane, które chcesz nadal używać, i zdecydujesz się nie przestrzegać zalecenia dotyczącego uaktualnienia wszystkich tabel zarządzanych przez magazyn metadanych Hive do magazynu metadanych Unity Catalog, możesz kontynuować pracę z danymi w magazynie metadanych Hive, federując je jako katalog zewnętrzny w Unity Catalog. Zobacz Federacja magazynu metadanych Hive: włącz Unity Catalog, aby zarządzać tabelami zarejestrowanymi w magazynie metadanych Hive.

Udzielanie dostępu do uaktualnionych lub federacyjnych tabel

Zapewnij użytkownikom, grupom lub jednostkom usługi na poziomie konta dostęp do nowych tabel. Zobacz Zarządzanie uprawnieniami w Unity Catalog.

Aktualizowanie zapytań i zadań w celu pracy z uaktualnionymi tabelami i ścieżkami do danych

Podczas przechodzenia z lokalnego magazynu metadanych Hive obszaru roboczego do wykazu aparatu Unity można nadal używać zapytań i zadań odwołujących się do danych zarejestrowanych w magazynie metadanych Hive, używając federacji magazynu metadanych Hive (zalecane) lub składni opisanej w temacie Praca ze starszym magazynem metadanych Hive wraz z wykazem aparatu Unity. Jednak ostatecznie należy zaktualizować wszystkie zapytania i zadania, aby używać tabel i składni Unity Catalog.

Podobnie zaktualizuj zapytania i zadania, które używają dostępu opartego na ścieżkach do plików, aby zamiast tego używać woluminów Unity Catalog.

Aby uzyskać szczegółowe zalecenia, zobacz Aktualizowanie zadań podczas uaktualniania starszych obszarów roboczych do Unity Catalog.