Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule opisano dostępne ustawienia podczas tworzenia puli przy użyciu interfejsu użytkownika. Aby dowiedzieć się, jak utworzyć pulę przy użyciu interfejsu wiersza polecenia usługi Databricks, zobacz Polecenia interfejsu wiersza polecenia usługi Databricks. Aby dowiedzieć się, jak przy użyciu interfejsu API REST utworzyć pulę, zobacz Instance Pools API.
Uwaga
Jeśli obciążenie obsługuje przetwarzanie bezserwerowe, usługa Databricks zaleca używanie bezserwerowych obliczeń zamiast pul, aby korzystać z zawsze włączonego, skalowalnego środowiska obliczeniowego. Zobacz Connect to serverless compute.
Rozmiar puli
Podczas tworzenia puli, w celu kontrolowania jej rozmiaru, można ustawić trzy parametry: minimalna liczba bezczynnych instancji, maksymalna pojemność i automatyczne zamknięcie bezczynnych instancji.
Minimalna liczba wystąpień bezczynności
Minimalna liczba wystąpień, które pula utrzymuje w stanie bezczynnym. Te instancje nie zostaną zakończone, niezależnie od ustawień automatycznego kończenia. Jeśli klaster korzysta z nieaktywnych wystąpień z puli, Azure Databricks dodaje dodatkowe wystąpienia w celu zachowania minimum.
Maksymalna pojemność
Maksymalna liczba wystąpień, które może dostarczyć pula. W przypadku ustawienia ta wartość ogranicza wszystkie wystąpienia (bezczynne i używane). Jeśli klaster używający puli żąda więcej wystąpień niż ta liczba podczas skalowania automatycznego, żądanie kończy się niepowodzeniem INSTANCE_POOL_MAX_CAPACITY_FAILURE z powodu błędu.
Ta konfiguracja jest opcjonalna. Usługa Azure Databricks zaleca ustawienie wartości tylko w następujących okolicznościach:
- Masz limit przydziału wystąpień, którego musisz przestrzegać.
- Chcesz chronić jeden zestaw pracy przed wpływem na inny zestaw pracy. Załóżmy, że przydział instancji wynosi 100, a masz zespoły A i B, które muszą uruchamiać zadania. Możesz utworzyć pulę A z maksymalnie 50 i pulę B z maksymalnie 50, aby obie drużyny dzieliły limit 100 sprawiedliwie.
- Musisz ograniczyć koszty.
Automatyczne zakończenie bezczynnych instancji
Czas w minutach powyżej wartości ustawionej w Minimalna liczba bezczynnych instancji, przez który instancje mogą pozostawać bezczynne, zanim zostaną zakończone przez pulę.
Typy wystąpień
Pula składa się zarówno z bezczynnych instancji, które są gotowe do użycia dla nowych klastrów, jak i instancji używanych przez uruchomione klastry. Wszystkie te wystąpienia są tego samego typu dostawcy, wybranego podczas tworzenia puli.
Typu wystąpienia puli nie można edytować. Klastry dołączone do puli używają tego samego typu wystąpienia dla węzłów głównych i węzłów roboczych. Różne rodziny typów wystąpień pasują do różnych przypadków użycia, takich jak obciążenia intensywnie korzystające z pamięci lub intensywnie korzystające z obliczeń.
Usługa Azure Databricks zawsze daje roczne powiadomienie o zakończeniu wsparcia przed zaprzestaniem obsługi danego typu wystąpienia.
Uwaga
Jeśli wymagania dotyczące zabezpieczeń obejmują izolację obliczeniową, wybierz wystąpienie Standard_F72s_V2 jako typ procesu roboczego. Te typy instancji reprezentują izolowane maszyny wirtualne, które korzystają z całego hosta fizycznego i zapewniają wymagany poziom izolacji do obsługi, na przykład obciążeń Departamentu Obrony USA na Poziomie Oddziaływania 5 (IL5).
Wstępnie załadowana wersja środowiska Databricks Runtime
Możesz przyspieszyć uruchamianie klastra, wybierając wersję środowiska Databricks Runtime, która ma zostać załadowana na nieaktywne instancje w puli. Jeśli użytkownik wybierze to środowisko uruchomieniowe podczas tworzenia klastra wspieranego przez pulę, klaster zostanie uruchomiony jeszcze szybciej niż klaster oparty na puli, który nie używa wstępnie załadowanej wersji środowiska Databricks Runtime.
Ustawienie tej opcji na Brak spowalnia uruchamianie klastrów, ponieważ powoduje to pobieranie wersji Databricks Runtime na żądanie do bezczynnych instancji w puli. Gdy klaster zwalnia wystąpienia w puli, wersja środowiska Databricks Runtime pozostaje buforowana w tych wystąpieniach. Następna operacja tworzenia klastra korzystająca z tej samej wersji środowiska Databricks Runtime może korzystać z tego zachowania buforowania, ale nie jest gwarantowana.
Wstępnie załadowany obraz Docker
Obrazy Docker działają z pulami, jeśli używasz interfejsu API pul wystąpień do utworzenia puli.
Tagi puli
Tagi puli umożliwiają łatwe monitorowanie kosztów zasobów w chmurze używanych przez różne grupy w organizacji. Tagi można określić jako pary klucz-wartość podczas tworzenia puli, a usługa Azure Databricks stosuje te tagi do zasobów w chmurze, takich jak maszyny wirtualne i woluminy dysków, a także raporty użycia jednostek DBU.
Dla wygody usługa Azure Databricks stosuje trzy tagi domyślne do każdej puli: Vendor, DatabricksInstancePoolIdi DatabricksInstancePoolCreatorId. Tagi niestandardowe można również dodawać podczas tworzenia puli. Możesz dodać maksymalnie 41 tagów niestandardowych.
Tagi niestandardowe
Aby dodać dodatkowe tagi do puli, przejdź do zakładki karty w dolnej części strony Stwórz pulę. Kliknij przycisk + Dodaj, a następnie wprowadź parę klucz-wartość.
Klastry oparte na puli dziedziczą z konfiguracji puli domyślne i niestandardowe tagi. Aby uzyskać szczegółowe informacje na temat współdziałania tagów puli i tagów klastra, zapoznaj się z Używaniem tagów do przypisywania i śledzenia użycia.
Autoskalowanie magazynu lokalnego
Często trudno jest oszacować ilość miejsca na dysku potrzebnego do wykonania określonego zadania. Aby zaoszczędzić na konieczności oszacowania, ile gigabajtów dysku zarządzanego ma zostać dołączonych do puli w czasie tworzenia, usługa Azure Databricks automatycznie włącza automatyczne skalowanie magazynu lokalnego we wszystkich pulach usługi Azure Databricks.
Dzięki automatycznemu skalowaniu lokalnego magazynu, usługa Azure Databricks monitoruje ilość wolnego miejsca na dysku dostępnego w instancjach puli. Jeśli w instance zaczyna brakować miejsca na dysku, nowy dysk zarządzany jest dołączany automatycznie, zanim całkowicie się skończy. Dyski można dołączyć, aż do osiągnięcia limitu 5 TB całkowitej pamięci dyskowej na maszynę wirtualną (w tym początkowej lokalnej pamięci maszyny wirtualnej).
Dyski zarządzane dołączone do maszyny wirtualnej są odłączane tylko wtedy, gdy maszyna wirtualna zostanie zwrócona na platformę Azure. Oznacza to, że dyski zarządzane nigdy nie są odłączane od maszyny wirtualnej, o ile jest częścią puli.
Wystąpienia typu spot
Aby zaoszczędzić na kosztach, możesz wybrać użycie instancji typu Spot, zaznaczając przycisk radiowy Wszystkie Spot.
Klastry w puli będą uruchamiane z wystąpieniami typu spot dla wszystkich węzłów, sterowników i procesów roboczych (w przeciwieństwie do hybrydowego sterownika na żądanie i procesów roboczych wystąpień typu spot dla klastrów spoza puli).
Jeśli wystąpienia typu spot są eksmitowane z powodu niedostępności, wystąpienia na żądanie nie zastępują eksmitowanych wystąpień.