Udostępnij przez


Architektura wysokiego poziomu

Ten artykuł zawiera ogólne omówienie architektury usługi Azure Databricks, w tym jej architektury przedsiębiorstwa, w połączeniu z platformą Azure.

Obiekty usługi Databricks

Konto usługi Azure Databricks to konstrukcja najwyższego poziomu używana do zarządzania usługą Azure Databricks w całej organizacji. Na poziomie konta zarządzasz:

  • Tożsamość i dostęp: użytkownicy, grupy, zasady dostępu do usług i zarządzanie zasobami użytkowników.
  • Zarządzanie obszarem roboczym: tworzenie, aktualizowanie i usuwanie obszarów roboczych w wielu regionach.

  • Zarządzanie metasklepem katalogu Unity: tworzenie i przypisywanie metasklepu do obszarów roboczych.

  • Zarządzanie użyciem: rozliczenia, zgodność i zasady.

Konto może zawierać wiele obszarów roboczych i metamagazynów Unity Catalog.

  • Obszary robocze to środowisko współpracy, w którym użytkownicy uruchamiają obciążenia obliczeniowe, takie jak pozyskiwanie, interaktywna eksploracja, zaplanowane zadania i trenowanie uczenia maszynowego.

  • Magazyny metadanych Unity Catalog to centralny system zarządzania zasobami danych, takimi jak tabele i modele uczenia maszynowego. Dane są organizowane w magazynie metadanych w trójpoziomowej przestrzeni nazw.

<catalog-name>.<schema-name>.<object-name>

Magazyny metadanych są dołączane do obszarów roboczych. Pojedynczy magazyn metadanych można połączyć z wieloma obszarami roboczymi usługi Azure Databricks w tym samym regionie, dając każdemu obszarowi roboczemu ten sam widok danych. Mechanizmy kontroli dostępu do danych można zarządzać we wszystkich połączonych obszarach roboczych.

Diagram: hierarchia obiektów usługi Databricks

Architektura obszaru roboczego

Usługa Azure Databricks działa poza płaszczyzną sterowania i płaszczyzną obliczeniową.

  • Płaszczyzna sterowania obejmuje usługi zaplecza zarządzane przez usługę Azure Databricks na koncie usługi Azure Databricks. Aplikacja internetowa znajduje się na płaszczyźnie sterowania.

  • To na płaszczyźnie obliczeniowej przetwarzane są twoje dane. Istnieją dwa typy płaszczyzn obliczeniowych w zależności od używanych zasobów obliczeniowych.

    • W przypadku bezserwerowych zasobów obliczeniowych zasoby te działają na bezserwerowej płaszczyźnie obliczeniowej na koncie usługi Azure Databricks.
    • W przypadku klasycznych zasobów obliczeniowych usługi Azure Databricks zasoby obliczeniowe znajdują się w subskrypcji platformy Azure w tak zwanej klasycznej płaszczyźnie obliczeniowej. Dotyczy to sieci w ramach subskrypcji platformy Azure i jej zasobów.

    Aby dowiedzieć się więcej o klasycznych obliczeniach i bezserwerowych obliczeniach, zobacz Obliczenia.

Klasyczna architektura obszaru roboczego

Klasyczne obszary robocze Azure Databricks mają przypisane konto przechowywania, znane jako konto przechowywania obszaru roboczego. Konto magazynu obszaru roboczego znajduje się w subskrypcji platformy Azure.

Na poniższym diagramie opisano ogólną architekturę usługi Azure Databricks dla klasycznych obszarów roboczych.

Diagram: architektura usługi Databricks

Architektura bezserwerowego obszaru roboczego

Pamięć masowa w obszarach roboczych bezserwerowych znajduje się w domyślnym magazynie obszaru roboczego. Możesz również nawiązać połączenie z kontem chmury, aby uzyskać dostęp do swoich danych. Na poniższym diagramie opisano ogólną architekturę dla obszarów roboczych bezserwerowych.

Diagram: architektura usługi Databricks

Bezserwerowa płaszczyzna obliczeniowa

Na bezserwerowej płaszczyźnie obliczeniowej zasoby obliczeniowe usługi Azure Databricks są uruchamiane w warstwie obliczeniowej na koncie usługi Azure Databricks. Usługa Azure Databricks tworzy bezserwerową płaszczyznę obliczeniową w tym samym regionie świadczenia usługi Azure co klasyczna płaszczyzna obliczeniowa obszaru roboczego. Ten region należy wybrać podczas tworzenia obszaru roboczego.

Aby chronić dane klientów w bezserwerowej płaszczyźnie obliczeniowej, bezserwerowe obliczenia są uruchamiane w granicach sieci dla obszaru roboczego, z różnymi warstwami zabezpieczeń w celu odizolowania różnych obszarów roboczych klientów usługi Azure Databricks i dodatkowych mechanizmów kontroli sieci między klastrami tego samego klienta.

Aby dowiedzieć się więcej na temat sieci na bezserwerowej płaszczyźnie obliczeniowej, sieć bezserwerowej płaszczyzny obliczeniowej.

Klasyczna płaszczyzna obliczeniowa

W klasycznej płaszczyźnie obliczeniowej zasoby obliczeniowe usługi Azure Databricks są uruchamiane w ramach subskrypcji platformy Azure. Nowe zasoby obliczeniowe są tworzone w ramach sieci wirtualnej każdego obszaru roboczego w ramach subskrypcji platformy Azure klienta.

Tradycyjna platforma obliczeniowa ma naturalną izolację, ponieważ działa w subskrypcji Azure klienta. Aby dowiedzieć się więcej na temat sieci w klasycznej płaszczyźnie obliczeniowej, zobacz Klasyczne sieci płaszczyzn obliczeniowych.

Aby uzyskać pomoc regionalną, zobacz Regiony usługi Azure Databricks.

Przechowywanie przestrzeni roboczej

Przechowywanie w obszarach roboczych jest zarządzane inaczej w zależności od typu obszaru roboczego. Aby uzyskać więcej informacji na temat typów obszarów roboczych, zobacz Tworzenie obszaru roboczego.

Obszary robocze bezserwerowe

Środowiska bezserwerowe używają domyślnego magazynu, który jest w pełni zarządzaną lokalizacją przechowywania dla danych systemowych środowiska oraz katalogów Unity Catalog. Obszary robocze bezserwerowe obsługują również możliwość łączenia się z lokalizacjami przechowywania w chmurze. Zobacz Domyślna pamięć masowa w Databricks.

Klasyczne obszary robocze

Konto magazynu obszaru roboczego zawiera:

  • Dane systemu obszarów roboczych: dane systemowe obszaru roboczego są generowane podczas korzystania z różnych funkcji usługi Azure Databricks, takich jak tworzenie notesów. Ten zasobnik zawiera poprawki notesu, szczegóły uruchomienia zadania, wyniki poleceń i dzienniki platformy Spark
  • Katalog obszaru roboczego Unity Catalog: Jeśli obszar roboczy został automatycznie włączony do Unity Catalog, konto magazynowe obszaru roboczego zawiera domyślny katalog obszaru roboczego. Wszyscy użytkownicy w obszarze roboczym mogą tworzyć zasoby w domyślnym schemacie w tym katalogu. Zobacz Rozpocznij pracę z Unity Catalog.
  • DBFS (starsza wersja): Korzeń DBFS i zamontowane katalogi DBFS są przestarzałe i mogą być wyłączone w obszarze roboczym. DBFS (System plików Databricks) to rozproszony system plików w środowiskach Azure Databricks, dostępny pod przestrzenią nazw dbfs:/. Instalacja systemu plików DBFS root i DBFS jest zarówno w dbfs:/ przestrzeni nazw. Przechowywanie i uzyskiwanie dostępu do danych przy użyciu DBFS root lub zamontowań DBFS jest przestarzałym wzorcem i nie jest zalecane przez Databricks. Aby uzyskać więcej informacji, zobacz Co to jest system plików DBFS?.

Aby ograniczyć dostęp do konta magazynu obszaru roboczego tylko z autoryzowanych zasobów i sieci, zapoznaj się z informacjami w , jak włączyć obsługę zapory dla konta magazynu obszaru roboczego.