Tworzenie klastra Spark
W obszarze roboczym usługi Azure Databricks można utworzyć co najmniej jeden klaster przy użyciu interfejsu użytkownika obszaru roboczego usługi Azure Databricks.
Podczas tworzenia klastra można określić ustawienia konfiguracji, w tym:
- Nazwa klastra.
- Tryb klastra , który może być:
- Standardowa: odpowiednia dla obciążeń dla jednego użytkownika, które wymagają wielu węzłów roboczych.
- o wysokiej współbieżności: odpowiednie dla obciążeń, w których wielu użytkowników będzie jednocześnie używać klastra.
- Pojedynczy węzeł: nadaje się do małych obciążeń lub testowania, gdzie wymagany jest tylko jeden węzeł roboczy.
- Wersja środowiska Databricks Runtime do użycia w klastrze; określa wersję platformy Spark i poszczególnych składników, takich jak Python, Scala i inne, które są instalowane.
- Typ maszyny wirtualnej używanej dla węzłów procesu roboczego w klastrze.
- Minimalna i maksymalna liczba węzłów roboczych w klastrze.
- Typ maszyny wirtualnej używanej dla węzła sterownika w klastrze.
- Określa, czy klaster obsługuje skalowanie automatyczne w celu dynamicznego zmieniania rozmiaru klastra.
- Jak długo klaster może pozostać bezczynny przed automatycznym zamknięciem.
Jak platforma Azure zarządza zasobami klastra
Podczas tworzenia obszaru roboczego usługi Azure Databricks urządzenie usługi Databricks jest wdrażane jako zasób platformy Azure w ramach subskrypcji. Podczas tworzenia klastra w obszarze roboczym należy określić typy i rozmiary maszyn wirtualnych do użycia zarówno dla węzłów sterownika, jak i węzłów roboczych, a także inne opcje konfiguracji, ale usługa Azure Databricks zarządza wszystkimi innymi aspektami klastra.
Urządzenie Databricks jest wdrażane na platformie Azure jako zarządzana grupa zasobów w ramach Twojej subskrypcji. Ta grupa zasobów zawiera maszyny wirtualne sterowników i procesów roboczych dla klastrów oraz inne wymagane zasoby, w tym sieć wirtualną, grupę zabezpieczeń i konto magazynu. Wszystkie metadane klastra, takie jak zaplanowane zadania, są przechowywane w usłudze Azure Database z replikacją geograficzną w celu zapewnienia odporności na uszkodzenia.
Usługa Azure Databricks jest podzielona na dwie główne płaszczyzny: płaszczyznę sterowania, która składa się z usług zaplecza (na przykład internetowego interfejsu użytkownika) zarządzanego przez firmę Microsoft oraz płaszczyzny obliczeniowej, na której działają obciążenia danych. Istnieją dwa warianty obliczeń: klasyczne zasoby obliczeniowe, które korzystają z własnej subskrypcji platformy Azure i sieci wirtualnej (oferując izolację w ramach subskrypcji) oraz bezserwerowych obliczeń, które są uruchamiane w środowisku zarządzanym usługi Databricks, ale nadal w tym samym regionie świadczenia usługi Azure co obszar roboczy, z mechanizmami kontroli sieci i zabezpieczeń w celu odizolowania między klientami. Każdy obszar roboczy ma konto magazynu w ramach subskrypcji, które zawiera dane systemowe (notesy, dzienniki, metadane zadań), rozproszony system plików (DBFS) i zasoby katalogowe (jeśli masz włączony Unity Catalog), z dodatkowymi mechanizmami kontroli dla sieci, zapory i dostępu, aby zapewnić bezpieczeństwo i odpowiednią izolację.
Uwaga
Istnieje również możliwość dołączenia klastra do puli węzłów bezczynnych w celu skrócenia czasu uruchamiania klastra. Aby uzyskać więcej informacji, zobacz Pule w dokumentacji usługi Azure Databricks.