Delen via


Klassieke berekening configureren voor pijplijnen

Deze pagina bevat instructies voor het configureren van klassieke compute voor Lakeflow Spark-declaratieve pijplijnen. Zie de clusters definitie in de pijplijn-API-verwijzing voor een verwijzing naar het JSON-schema.

Als u een pijplijn wilt maken die wordt uitgevoerd op klassieke berekeningen, moeten gebruikers eerst gemachtigd zijn om klassieke berekeningen te implementeren, ofwel onbeperkte aanmaakmachtigingen of toegang tot een rekenbeleid. Voor serverloze pijplijnen zijn geen machtigingen voor het maken van rekenkracht vereist. Standaard kunnen alle werkruimtegebruikers serverloze pijplijnen gebruiken.

Opmerking

Omdat de declaratieve pijplijnruntime van Lakeflow Spark de levenscyclus van pijplijn-rekenkracht beheert en een aangepaste versie van Databricks Runtime uitvoert, kunt u bepaalde rekeninstellingen niet handmatig instellen in een pijplijnconfiguratie, zoals de Spark-versie of clusternamen. Zie Clusterkenmerken die niet door de gebruiker kunnen worden ingesteld.

Selecteer de rekenkracht voor uw pijplijn

Ga als volgt te werk om de klassieke berekening voor uw pijplijn te configureren vanuit de Lakeflow Pipelines-editor:

  1. Klik op Instellingen.
  2. Klik in de sectie Compute van de pijplijninstellingen op het potloodpictogram. Bewerken.
  3. Als deze optie is ingeschakeld, schakelt u serverloos uit.
  4. Breng eventuele andere wijzigingen aan in de rekeninstellingen en klik vervolgens op Opslaan.

Hiermee configureert u uw pijplijn voor het gebruik van klassieke berekeningen en kunt u de rekeninstellingen bewerken, zoals hieronder wordt beschreven.

Zie ETL-pijplijnen ontwikkelen en fouten opsporen met de Lakeflow Pipelines Editor voor meer informatie over de Lakeflow Pipelines Editor.

Een rekenbeleid selecteren

Werkruimtebeheerders kunnen rekenbeleid configureren om gebruikers toegang te bieden tot klassieke rekenresources voor pijplijnen. Rekenbeleid is optioneel. Neem contact op met de werkruimtebeheerder als u niet beschikt over de vereiste rekenbevoegdheden. Zie Limieten definiëren voor declaratieve pijplijnen van Lakeflow Spark.

Wanneer u de Pipelines-API gebruikt, moet u ervoor zorgen dat de standaardwaarden van het rekenbeleid correct worden toegepast, ingesteld "apply_policy_default_values": true in de clusters definitie:

{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}

Rekentags configureren

U kunt aangepaste tags toevoegen aan de klassieke rekenresources van uw pijplijn. Met tags kunt u de kosten van rekenresources bewaken die door verschillende groepen in uw organisatie worden gebruikt. Databricks past deze tags toe op cloudresources en op gebruikslogboeken die zijn vastgelegd in de gebruikssysteemtabellen. U kunt tags toevoegen met behulp van de gebruikersinterface-instelling Clustertags of door de JSON-configuratie van uw pijplijn te bewerken.

Instantietypen selecteren om een pijplijn uit te voeren

Standaard selecteren de declaratieve pijplijnen van Lakeflow Spark de exemplaartypen voor de driver en de werkernodes van uw pijplijn. U kunt desgewenst de exemplaartypen configureren. Selecteer bijvoorbeeld exemplaartypen om de pijplijnprestaties te verbeteren of geheugenproblemen op te lossen bij het uitvoeren van uw pijplijn.

Ga als volgt te werk om exemplaartypen te configureren wanneer u een pijplijn maakt of bewerkt in de Lakeflow Pipelines Editor:

  1. Klik op de knop Instellingen.
  2. Klik in de sectie Compute van de pijplijninstellingen op het potloodpictogram.
  3. Selecteer in de sectie Geavanceerde instellingen het type werkrol en het type stuurprogramma voor de pijplijn.

Afzonderlijke instellingen configureren voor de update- en onderhoudsclusters

Elke declaratieve pijplijn heeft twee gekoppelde rekenresources: een updatecluster dat pijplijnupdates verwerkt en een onderhoudscluster dat dagelijkse onderhoudstaken uitvoert (inclusief voorspellende optimalisatie). Uw rekenconfiguraties zijn standaard van toepassing op beide clusters. Door dezelfde instellingen voor beide clusters te gebruiken, wordt de betrouwbaarheid van onderhoudsuitvoeringen verbeterd door ervoor te zorgen dat vereiste configuraties, zoals referenties voor gegevenstoegang voor een opslaglocatie, worden toegepast op het onderhoudscluster.

Als u instellingen wilt toepassen op slechts één van de twee clusters, voegt u het label veld toe aan het JSON-instellingsobject. Er zijn drie mogelijke waarden voor het label veld:

  • maintenance: De instelling wordt alleen toegepast op het onderhoudscluster.
  • updates: De instelling wordt alleen toegepast op het updatecluster.
  • default: De instelling wordt toegepast op zowel de update- als onderhoudsclusters. Dit is de standaardwaarde als het label veld wordt weggelaten.

Als er een conflicterende instelling is, overschrijft de instelling met het updates of maintenance label de instelling die is gedefinieerd met het default label.

Opmerking

Het dagelijkse onderhoudscluster wordt alleen gebruikt in bepaalde gevallen:

  • Pijplijnen die zijn opgeslagen in hive-metastore.
  • Pijplijnen in werkruimten die de serverloze rekenvoorwaarden van de service niet hebben geaccepteerd. Als u hulp nodig hebt bij het accepteren van de voorwaarden, neemt u contact op met uw Databricks-vertegenwoordiger.
  • Pijplijnen in werkruimten die de privékoppeling niet correct hebben geconfigureerd naar serverloos.

Voorbeeld: Een instelling definiëren voor het updatecluster

In het volgende voorbeeld wordt een Spark-configuratieparameter gedefinieerd die alleen wordt toegevoegd aan de configuratie voor het updates-cluster:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

Voorbeeld: Instantietypen configureren voor het updatecluster

Om te voorkomen dat onnodige resources worden toegewezen aan het maintenance-cluster, wordt in dit voorbeeld het label updates gebruikt om alleen de instantietypen voor het updates-cluster in te stellen.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

Afsluiten van rekenproces vertragen

Als u het gedrag van het afsluiten van clusters wilt beheren, kunt u de ontwikkelings- of productiemodus gebruiken of de pipelines.clusterShutdown.delay-instelling in de pijplijnconfiguratie gebruiken. In het volgende voorbeeld wordt de pipelines.clusterShutdown.delay waarde ingesteld op 60 seconden:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Wanneer production modus is ingeschakeld, wordt de standaardwaarde voor pipelines.clusterShutdown.delay0 seconds. Wanneer development modus is ingeschakeld, wordt de standaardwaarde 2 hours.

Opmerking

Omdat de rekenkracht van Lakeflow Spark declaratieve pijplijnen automatisch wordt uitgeschakeld wanneer deze niet in gebruik is, kunt u geen rekenbeleid gebruiken dat autotermination_minutes instelt. Dit resulteert in een fout.

Een rekenproces met één knooppunt maken

Een rekenproces met één knooppunt heeft een stuurprogrammaknooppunt dat fungeert als hoofd- en werkrol. Dit is bedoeld voor workloads die kleine hoeveelheden gegevens gebruiken of niet worden gedistribueerd.

Als u een rekenproces met één knooppunt wilt maken, stelt u in op num_workers 0. Voorbeeld:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}