Udostępnij przez


Wyłączanie dostępu do magazynu metadanych Hive używanego przez obszar roboczy usługi Azure Databricks

Na tej stronie opisano sposób wyłączania bezpośredniego dostępu do starszego magazynu metadanych Hive używanego przez obszar roboczy usługi Azure Databricks, niezależnie od tego, czy magazyn metadanych Hive w obszarze roboczym lokalnym, czy zewnętrzny magazyn metadanych Hive. Po zakończeniu migracji katalogu Unity lub sfederowaniu magazynu metadanych Hive jako obcego katalogu zarządzanego przez katalog Unity, możesz użyć prostego ustawienia administratora obszaru roboczego, aby uniemożliwić użytkownikom ominięcie katalogu Unity i dostęp do tabel w magazynie metadanych Hive.

Dane w bazie metadanych Hive nie podlegają Unity Catalog. Wyłączenie bezpośredniego dostępu do magazynu metadanych Hive jest ważnym krokiem w procesie migracji do Unity Catalog i zapewnienia pełnego wykorzystania zarządzania danymi w Unity Catalog. Możesz wyłączyć bezpośredni dostęp i kontynuować wykonywanie zapytań dotyczących tabel zarządzanych przez magazyn metadanych Hive, korzystając z federacji magazynu metadanych Hive. Tabele magazynu metadanych Hive można sfederować przed lub po wyłączeniu bezpośredniego dostępu obszaru roboczego do magazynu metadanych Hive. Zobacz Uaktualnianie istniejącego obszaru roboczego do Unity Catalog i federację magazynu metadanych Hive: włącz Unity Catalog, aby zarządzać tabelami zarejestrowanymi w magazynie metadanych Hive.

Ważne

Nawet po przeprowadzeniu migracji do Unity Catalog klastry obliczeniowe usługi Azure Databricks domyślnie łączą się z metastore Hive, chyba że jawnie wyłączysz dostęp do metastore Hive. Aby zapobiec wpływowi konserwacji magazynu metadanych Hive na obciążenia Unity Catalog, możesz wyłączyć bezpośredni dostęp do magazynu metadanych Hive dla wszystkich klastrów i obciążeń jednocześnie (wyłącz cały bezpośredni dostęp do magazynu metadanych Hive) lub użyć konfiguracji platformy Spark, aby wyłączyć dostęp dla każdego klastra z osobna (wyłącz cały bezpośredni dostęp do magazynu metadanych Hive).

Aby wyłączyć dostęp do magazynu metadanych Hive na poziomie konta dla nowych obszarów roboczych, użyj ustawienia Wyłącz starsze funkcje konta.

Przed rozpoczęciem: kiedy należy wyłączyć starszy magazyn metadanych?

Przed wyłączeniem starszego magazynu metadanych Hive należy spełnić następujące kryteria:

  • Migracja wszystkich tabel zarejestrowanych w starszym magazynie Hive do Unity Catalog została zakończona, lub zawsze używałeś Unity Catalog i nigdy nie używałeś starszego magazynu Hive.
  • Chcesz wymusić, aby użytkownicy przestali używać tabel zarejestrowanych w starszym magazynie metadanych.
  • Wszystkie zadania zostały zaktualizowane do wersji Databricks Runtime 13.3 LTS lub nowszej.

Co się stanie po wyłączeniu starszego magazynu metadanych?

Po wyłączeniu starszego magazynu metadanych:

  • Wszystkie zadania uruchomione względem tabel zarejestrowanych w magazynie metadanych Hive zakończą się niepowodzeniem.

  • Powrót jest wyłączony.

  • Zadania uruchamiane w środowisku Databricks Runtime w wersjach poniżej 13.3 zakończy się niepowodzeniem.

    Obecnie uruchomione zadania będą nadal działać do momentu ich zakończenia, ale ponowne uruchomienie tych klastrów zakończy się niepowodzeniem.

  • Nagłówek Legacy i hive_metastore katalog znikną z okienka przeglądarki Eksploratora katalogu.

  • Polecenia SQL, które próbują wyświetlić zawartość hive_metastore wykazu, zakończy się niepowodzeniem.

Note

Wyłączenie starszego dostępu nie uniemożliwia użytkownikom korzystania z poświadczeń na poziomie klastra, takich jak jednostki usługi, które są dostępne w klastrze. Usługa Databricks zaleca usunięcie takich poświadczeń z klastrów.

Żadne klastry udostępnione izolacji nie są zgodne ze starszym ustawieniem wyłączania magazynu metadanych Hive. Aby uniemożliwić użytkownikom tworzenie i używanie takich klastrów, włącz ustawienie Wymuszaj izolację użytkownika dla obszaru roboczego. Zobacz Wymuszanie typów klastrów izolacji użytkowników w obszarze roboczym.

Wyłącz cały bezpośredni dostęp do magazynu metadanych Hive

Wyłącz starszy magazyn metadanych Hive obszaru roboczego w obszarze roboczym Wyłącz starszy dostęp :

  1. Jako administrator obszaru roboczego zaloguj się do obszaru roboczego usługi Azure Databricks.
  2. Kliknij menu profilu użytkownika w prawym górnym rogu i wybierz pozycję Ustawienia z menu.
  3. Przejdź do Zarządzanie zabezpieczeniami administracyjnymi obszaru roboczego>.
  4. Ustaw opcję Wyłącz starszy dostęp do pozycji Wyłączone: nie można używać starszych funkcji dostępu.
  5. Aby upewnić się, że nowe ustawienie zostało zastosowane, poczekaj około pięciu minut.
  6. Uruchom ponownie wszystkie uruchomione klastry.

Wyłączanie dostępu dla poszczególnych klastrów obliczeniowych

Możesz również stopniowo wyłączyć bezpośredni dostęp do magazynu metadanych Hive w oparciu o klaster. Takie podejście może być przydatne podczas migracji Unity Catalogu, gdy chcesz zmniejszyć zależność od Hive metastore przyrostowo, dopóki nie będzie można wyłączyć go w całym obszarze roboczym.

Aby wyłączyć bezpośredni dostęp, ustaw następujące konfiguracje platformy Spark w klastrze:

spark.databricks.unityCatalogOnlyMode True
spark.databricks.sql.initial.catalog.namespace <catalog-name>

Zastąp <catalog-name> nazwą katalogu Unity Catalog, który istnieje w metastore. Po włączeniu trybu wyłącznie katalogu Unity należy również ustawić początkowy katalog, ponieważ klaster nie może już używać hive_metastore jako katalogu domyślnego.