Konfigurowanie klasycznego środowiska obliczeniowego dla potoków

Ta strona zawiera instrukcje dotyczące konfigurowania klasycznego przeliczania dla Lakeflow Spark Declarative Pipelines. Aby zapoznać się ze schematem JSON, zobacz definicję clusters w dokumentacji interfejsu API potoku.

Aby utworzyć potok uruchamiany w klasycznym środowisku obliczeniowym, użytkownicy muszą najpierw mieć uprawnienia do wdrażania klasycznych obliczeń, nieograniczonego uprawnienia do tworzenia lub dostępu do zasad obliczeniowych. Potoki bezserwerowe nie wymagają uprawnień do tworzenia zasobów obliczeniowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.

Uwaga / Notatka

Ponieważ środowisko uruchomieniowe potoków deklaratywnych platformy Lakeflow zarządza cyklem życia obliczeń potoku i uruchamia niestandardową wersję środowiska Databricks Runtime, nie można ręcznie ustawić niektórych ustawień obliczeniowych w konfiguracji potoku, takiej jak wersja platformy Spark lub nazwy klastra. Zobacz Atrybuty klastra, które nie są konfigurowalne przez użytkownika.

Wybierz obliczenia dla swojego potoku

Aby skonfigurować tradycyjne obliczenia dla potoku za pomocą Edytora potoków Lakeflow:

Kliknij przycisk Ustawienia.
W sekcji Obliczenia ustawień potoku kliknij ikonę , aby edytować.
Jeśli jest zaznaczone, odznacz Bezserwerowe.
Wprowadź inne zmiany w ustawieniach obliczeniowych, a następnie kliknij przycisk Zapisz.

Spowoduje to skonfigurowanie potoku do używania klasycznych obliczeń i umożliwia edytowanie ustawień obliczeniowych, opisanych poniżej.

Aby uzyskać więcej informacji na temat Edytora potoków lakeflow, zobacz Develop and debug ETL pipelines with the Lakeflow Pipelines Editor (Opracowywanie i debugowanie potoków ETL za pomocą edytora potoków lakeflow).

Wybieranie zasad obliczeniowych

Administratorzy obszaru roboczego mogą konfigurować zasady obliczeniowe, aby zapewnić użytkownikom dostęp do klasycznych zasobów obliczeniowych dla potoków. Zasady obliczeniowe są opcjonalne. Jeśli nie masz wymaganych uprawnień obliczeniowych, zapoznaj się z administratorem obszaru roboczego. Zobacz Define limits on Lakeflow Spark Declarative Pipelines compute (Definiowanie limitów w obliczeniach deklaratywnych potoków platformy Spark w usłudze Lakeflow).

W przypadku korzystania z interfejsu API potoków, aby upewnić się, że wartości domyślne zasad obliczeniowych są poprawnie stosowane, ustaw "apply_policy_default_values": true w clusters definicji:

{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}

Konfigurowanie tagów obliczeniowych

Tagi niestandardowe można dodawać do klasycznych zasobów obliczeniowych potoku. Tagi umożliwiają monitorowanie kosztów zasobów obliczeniowych używanych przez różne grupy w organizacji. Usługa Databricks stosuje te tagi do zasobów w chmurze i dzienników użycia zarejestrowanych w tabelach systemu użycia. Tagi można dodawać przy użyciu ustawienia interfejsu użytkownika tagów klastra lub edytując konfigurację JSON potoku.

Wybierz typy instancji do uruchomienia potoku

Domyślnie deklaratywne potoki Lakeflow Spark wybierają typy wystąpień dla węzłów sterujących i roboczych potoku. Opcjonalnie można skonfigurować typy wystąpień. Na przykład wybierz typy wystąpień, aby poprawić wydajność potoku lub rozwiązać problemy z pamięcią podczas uruchamiania potoku.

Aby skonfigurować typy instancji podczas tworzenia lub edytowania potoku w Edytorze Potoków Lakeflow:

Kliknij przycisk Ustawienia.
W sekcji Komputer ustawień potoku kliknij
W sekcji Ustawienia zaawansowane wybierz typ procesu roboczego i typy wystąpień typu sterownika dla potoku.

Konfigurowanie oddzielnych ustawień dla klastrów aktualizacji i konserwacji

Każdy potok deklaratywny ma dwa skojarzone zasoby obliczeniowe: klaster aktualizacji, który przetwarza aktualizacje potoków i klaster konserwacji, który uruchamia codzienne zadania konserwacji (w tym optymalizację predykcyjną). Domyślnie konfiguracje obliczeń mają zastosowanie do obu tych klastrów. Użycie tych samych ustawień dla obu klastrów zwiększa niezawodność przebiegów konserwacji, zapewniając, że wymagane konfiguracje, takie jak poświadczenia dostępu do danych dla lokalizacji magazynu, są stosowane do klastra konserwacji.

Aby zastosować ustawienia tylko do jednego z dwóch klastrów, dodaj label pole do obiektu JSON ustawienia. Istnieją trzy możliwe wartości dla label pola:

maintenance: stosuje ustawienie tylko do klastra konserwacji.
updates: stosuje ustawienie tylko do klastra aktualizacji.
default: stosuje ustawienie zarówno do klastrów aktualizacji, jak i obsługi. Jest to wartość domyślna, jeśli label pole zostanie pominięte.

Jeśli istnieje ustawienie powodujące konflikt, ustawienie z updates etykietą lub maintenance zastępuje ustawienie zdefiniowane za default pomocą etykiety.

Uwaga / Notatka

Klaster konserwacji dziennej jest używany tylko w niektórych przypadkach:

Potoki przechowywane w magazynie metadanych Hive.
Potoki w obszarach roboczych, które nie zaakceptowały bezserwerowych warunków obliczeniowych usługi. Jeśli potrzebujesz pomocy przy akceptowaniu warunków, skontaktuj się z przedstawicielem usługi Databricks.

Potoki w obszarach roboczych, które nie skonfigurowały poprawnie łącza prywatnego do bezserwerowych.

Przykład: Definiowanie ustawienia dla klastra aktualizacji

W poniższym przykładzie zdefiniowano parametr konfiguracji platformy Spark, który jest dodawany tylko do konfiguracji klastra updates:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

Przykład: Konfigurowanie typów wystąpień dla klastra aktualizacji

Aby uniknąć przypisywania niepotrzebnych zasobów do klastra maintenance, w tym przykładzie użyto etykiety updates, aby ustawić typy wystąpień tylko dla klastra updates.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

Opóźnij zamknięcie obliczeń

Aby kontrolować zachowanie zamykania klastra, można użyć trybu programowania lub produkcji lub użyć ustawienia pipelines.clusterShutdown.delay w konfiguracji potoku. Poniższy przykład ustawia wartość pipelines.clusterShutdown.delay na 60 sekund:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Po włączeniu trybu production wartość domyślna dla pipelines.clusterShutdown.delay jest 0 seconds. Po włączeniu trybu development wartość domyślna to 2 hours.

Uwaga / Notatka

Ponieważ zasób obliczeniowy usługi Lakeflow Spark Deklaratywne potoki są automatycznie zamykane, gdy nie są używane, nie można użyć zasad obliczeniowych, które ustawiają wartość autotermination_minutes. Spowoduje to wystąpienie błędu.

Tworzenie pojedynczego węzła obliczeniowego

Obliczenia z jednym węzłem mają węzeł sterownika, który działa zarówno jako główny, jak i proces roboczy. Jest to przeznaczone dla obciążeń, które używają małych ilości danych lub nie są rozproszone.

Aby utworzyć środowisko obliczeniowe z jednym węzłem, ustaw wartość num_workers 0. Przykład:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-13

Udostępnij przez

Konfigurowanie klasycznego środowiska obliczeniowego dla potoków

Wybierz obliczenia dla swojego potoku

Wybieranie zasad obliczeniowych

Konfigurowanie tagów obliczeniowych

Wybierz typy instancji do uruchomienia potoku

Konfigurowanie oddzielnych ustawień dla klastrów aktualizacji i konserwacji

Przykład: Definiowanie ustawienia dla klastra aktualizacji

Przykład: Konfigurowanie typów wystąpień dla klastra aktualizacji

Opóźnij zamknięcie obliczeń

Tworzenie pojedynczego węzła obliczeniowego

Sprzężenie zwrotne

Dodatkowe źródła