Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ta strona zawiera instrukcje dotyczące konfigurowania klasycznego przeliczania dla Lakeflow Spark Declarative Pipelines. Aby zapoznać się ze schematem JSON, zobacz definicję clusters w dokumentacji interfejsu API potoku.
Aby utworzyć potok uruchamiany w klasycznym środowisku obliczeniowym, użytkownicy muszą najpierw mieć uprawnienia do wdrażania klasycznych obliczeń, nieograniczonego uprawnienia do tworzenia lub dostępu do zasad obliczeniowych. Potoki bezserwerowe nie wymagają uprawnień do tworzenia zasobów obliczeniowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.
Uwaga / Notatka
Ponieważ środowisko uruchomieniowe potoków deklaratywnych platformy Lakeflow zarządza cyklem życia obliczeń potoku i uruchamia niestandardową wersję środowiska Databricks Runtime, nie można ręcznie ustawić niektórych ustawień obliczeniowych w konfiguracji potoku, takiej jak wersja platformy Spark lub nazwy klastra. Zobacz Atrybuty klastra, które nie są konfigurowalne przez użytkownika.
Wybierz obliczenia dla swojego potoku
Aby skonfigurować tradycyjne obliczenia dla potoku za pomocą Edytora potoków Lakeflow:
- Kliknij przycisk Ustawienia.
- W sekcji Obliczenia ustawień potoku kliknij ikonę
, aby edytować.
- Jeśli jest zaznaczone, odznacz Bezserwerowe.
- Wprowadź inne zmiany w ustawieniach obliczeniowych, a następnie kliknij przycisk Zapisz.
Spowoduje to skonfigurowanie potoku do używania klasycznych obliczeń i umożliwia edytowanie ustawień obliczeniowych, opisanych poniżej.
Aby uzyskać więcej informacji na temat Edytora potoków lakeflow, zobacz Develop and debug ETL pipelines with the Lakeflow Pipelines Editor (Opracowywanie i debugowanie potoków ETL za pomocą edytora potoków lakeflow).
Wybieranie zasad obliczeniowych
Administratorzy obszaru roboczego mogą konfigurować zasady obliczeniowe, aby zapewnić użytkownikom dostęp do klasycznych zasobów obliczeniowych dla potoków. Zasady obliczeniowe są opcjonalne. Jeśli nie masz wymaganych uprawnień obliczeniowych, zapoznaj się z administratorem obszaru roboczego. Zobacz Define limits on Lakeflow Spark Declarative Pipelines compute (Definiowanie limitów w obliczeniach deklaratywnych potoków platformy Spark w usłudze Lakeflow).
W przypadku korzystania z interfejsu API potoków, aby upewnić się, że wartości domyślne zasad obliczeniowych są poprawnie stosowane, ustaw "apply_policy_default_values": true w clusters definicji:
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
Konfigurowanie tagów obliczeniowych
Tagi niestandardowe można dodawać do klasycznych zasobów obliczeniowych potoku. Tagi umożliwiają monitorowanie kosztów zasobów obliczeniowych używanych przez różne grupy w organizacji. Usługa Databricks stosuje te tagi do zasobów w chmurze i dzienników użycia zarejestrowanych w tabelach systemu użycia. Tagi można dodawać przy użyciu ustawienia interfejsu użytkownika tagów klastra lub edytując konfigurację JSON potoku.
Wybierz typy instancji do uruchomienia potoku
Domyślnie deklaratywne potoki Lakeflow Spark wybierają typy wystąpień dla węzłów sterujących i roboczych potoku. Opcjonalnie można skonfigurować typy wystąpień. Na przykład wybierz typy wystąpień, aby poprawić wydajność potoku lub rozwiązać problemy z pamięcią podczas uruchamiania potoku.
Aby skonfigurować typy instancji podczas tworzenia lub edytowania potoku w Edytorze Potoków Lakeflow:
- Kliknij przycisk Ustawienia.
- W sekcji Komputer ustawień potoku kliknij
- W sekcji Ustawienia zaawansowane wybierz typ procesu roboczego i typy wystąpień typu sterownika dla potoku.
Konfigurowanie oddzielnych ustawień dla klastrów aktualizacji i konserwacji
Każdy potok deklaratywny ma dwa skojarzone zasoby obliczeniowe: klaster aktualizacji, który przetwarza aktualizacje potoków i klaster konserwacji, który uruchamia codzienne zadania konserwacji (w tym optymalizację predykcyjną). Domyślnie konfiguracje obliczeń mają zastosowanie do obu tych klastrów. Użycie tych samych ustawień dla obu klastrów zwiększa niezawodność przebiegów konserwacji, zapewniając, że wymagane konfiguracje, takie jak poświadczenia dostępu do danych dla lokalizacji magazynu, są stosowane do klastra konserwacji.
Aby zastosować ustawienia tylko do jednego z dwóch klastrów, dodaj label pole do obiektu JSON ustawienia. Istnieją trzy możliwe wartości dla label pola:
-
maintenance: stosuje ustawienie tylko do klastra konserwacji. -
updates: stosuje ustawienie tylko do klastra aktualizacji. -
default: stosuje ustawienie zarówno do klastrów aktualizacji, jak i obsługi. Jest to wartość domyślna, jeślilabelpole zostanie pominięte.
Jeśli istnieje ustawienie powodujące konflikt, ustawienie z updates etykietą lub maintenance zastępuje ustawienie zdefiniowane za default pomocą etykiety.
Uwaga / Notatka
Klaster konserwacji dziennej jest używany tylko w niektórych przypadkach:
- Potoki przechowywane w magazynie metadanych Hive.
- Potoki w obszarach roboczych, które nie zaakceptowały bezserwerowych warunków obliczeniowych usługi. Jeśli potrzebujesz pomocy przy akceptowaniu warunków, skontaktuj się z przedstawicielem usługi Databricks.
- Potoki w obszarach roboczych, które nie skonfigurowały poprawnie łącza prywatnego do bezserwerowych.
Przykład: Definiowanie ustawienia dla klastra aktualizacji
W poniższym przykładzie zdefiniowano parametr konfiguracji platformy Spark, który jest dodawany tylko do konfiguracji klastra updates:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Przykład: Konfigurowanie typów wystąpień dla klastra aktualizacji
Aby uniknąć przypisywania niepotrzebnych zasobów do klastra maintenance, w tym przykładzie użyto etykiety updates, aby ustawić typy wystąpień tylko dla klastra updates.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"...": "..."
}
]
}
Opóźnij zamknięcie obliczeń
Aby kontrolować zachowanie zamykania klastra, można użyć trybu programowania lub produkcji lub użyć ustawienia pipelines.clusterShutdown.delay w konfiguracji potoku. Poniższy przykład ustawia wartość pipelines.clusterShutdown.delay na 60 sekund:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Po włączeniu trybu production wartość domyślna dla pipelines.clusterShutdown.delay jest 0 seconds. Po włączeniu trybu development wartość domyślna to 2 hours.
Uwaga / Notatka
Ponieważ zasób obliczeniowy usługi Lakeflow Spark Deklaratywne potoki są automatycznie zamykane, gdy nie są używane, nie można użyć zasad obliczeniowych, które ustawiają wartość autotermination_minutes. Spowoduje to wystąpienie błędu.
Tworzenie pojedynczego węzła obliczeniowego
Obliczenia z jednym węzłem mają węzeł sterownika, który działa zarówno jako główny, jak i proces roboczy. Jest to przeznaczone dla obciążeń, które używają małych ilości danych lub nie są rozproszone.
Aby utworzyć środowisko obliczeniowe z jednym węzłem, ustaw wartość num_workers 0. Przykład:
{
"clusters": [
{
"num_workers": 0
}
]
}