Concepts de pipelines déclaratifs Lakeflow Spark

Découvrez ce que sont les Lakeflow Spark Declarative Pipelines (SDP), les concepts fondamentaux (tels que les pipelines, les tables de streaming et les vues matérialisées) qui les définissent, les relations entre ces concepts et les avantages de leur utilisation dans vos flux de travail de traitement des données.

Note

Les pipelines déclaratifs Spark Lakeflow nécessitent le plan Premium. Pour plus d’informations, contactez votre équipe de compte Databricks.

Qu’est-ce que SDP ?

Lakeflow Spark Declarative Pipelines est une infrastructure déclarative pour le développement et l’exécution de pipelines de données par lots et de diffusion en continu dans SQL et Python. Lakeflow SDP se déploie et est interopérable avec les pipelines déclaratifs Apache Spark, tout en s’exécutant sur le runtime Databricks optimisé pour la performance, et l’API Pipelines déclaratifs flows Lakeflow Spark utilise la même API DataFrame que Apache Spark et Structured Streaming. Les cas d’usage courants pour SDP incluent l’ingestion de données incrémentielles à partir de sources telles que le stockage cloud (notamment Amazon S3, Azure ADLS Gen2 et Google Cloud Storage) et les bus de messages (comme Apache Kafka, Amazon Clusters, Google Pub/Sub, Azure EventHub et Apache Pulsar), les transformations incrémentielles de traitement par lots et de diffusion en continu avec des opérateurs sans état et un traitement de flux en temps réel entre les magasins transactionnels tels que les bus de messages et les bases de données.

Pour plus d’informations sur le traitement déclaratif des données, consultez Procédures et traitement déclaratif des données dans Databricks.

Quels sont les avantages de SDP ?

La nature déclarative de SDP offre les avantages suivants par rapport au développement de processus de données avec les API Apache Spark et Spark Structured Streaming et à les exécuter avec Databricks Runtime à l’aide de l’orchestration manuelle via Lakeflow Jobs.

Orchestration automatique : SDP orchestre automatiquement les étapes de traitement (appelées « flux ») pour garantir l’ordre d’exécution correct et le niveau maximal de parallélisme pour des performances optimales. En outre, les pipelines réessayent automatiquement et efficacement les opérations après des échecs temporaires. Le processus de nouvelle tentative commence par l’unité la plus granulaire et la plus rentable : la tâche Spark. Si la nouvelle tentative au niveau de la tâche échoue, SDP effectue une nouvelle tentative de flux, puis enfin l’intégralité du pipeline si nécessaire.
Traitement déclaratif : SDP fournit des fonctions déclaratives qui peuvent réduire des centaines ou même des milliers de lignes de code Spark et Structured Streaming manuels à quelques lignes seulement. L’API SDP AUTO CDC simplifie le traitement des événements de capture de données modifiées (CDC) avec prise en charge de SCD Type 1 et SCD Type 2. Il élimine la nécessité d'un codage manuel pour gérer les événements hors ordre, et il ne nécessite pas de compréhension de la sémantique du streaming ou des concepts tels que les filigranes.
Traitement incrémentiel : SDP fournit un moteur de traitement incrémentiel pour les vues matérialisées. Pour l’utiliser, vous écrivez votre logique de transformation avec la sémantique de traitement par lots, et le moteur traite uniquement les nouvelles données et les modifications apportées aux sources de données dans la mesure du possible. Le traitement incrémentiel réduit le retraitement inefficace lorsque de nouvelles données ou modifications se produisent dans les sources et élimine la nécessité d’un code manuel pour gérer le traitement incrémentiel.

Concepts clés

Le diagramme ci-dessous illustre les concepts les plus importants des pipelines déclaratifs Spark Lakeflow.

Diagramme montrant comment les concepts fondamentaux du SDP se rapportent les uns aux autres à un niveau très élevé

Flows

Un flux est le concept de traitement des données de base dans SDP qui prend en charge la sémantique de streaming et de traitement par lots. Un flux lit les données d’une source, applique une logique de traitement définie par l’utilisateur et écrit le résultat dans une cible. SDP partage le même type de flux de streaming (Append, Update, Complete) que Spark Structured Streaming. (Actuellement, seul le flux d’ajout est exposé.) Pour plus d’informations, consultez les modes de sortie dans Structured Streaming.

Les pipelines déclaratifs Spark Lakeflow fournissent également des types de flux supplémentaires :

AUTO CDC est un flux de streaming unique dans Lakeflow SDP qui gère les événements CDC hors ordre et prend en charge à la fois les SCD Type 1 et SCD Type 2. Les CDC automatiques ne sont pas disponibles dans les pipelines Apache Spark déclaratifs.
La vue matérialisée est un flux de lots dans SDP qui traite uniquement les nouvelles données et les modifications apportées aux tables sources dans la mesure du possible.