Partager via


Pipelines déclaratifs Lakeflow Spark

Lakeflow Spark Declarative Pipelines (SDP) est une infrastructure permettant de créer des pipelines de données par lots et de diffusion en continu dans SQL et Python. Lakeflow SDP s’étend et est interopérable avec des pipelines déclaratifs Apache Spark, tout en s’exécutant sur le runtime Databricks optimisé pour les performances. Les cas d’usage courants pour les pipelines incluent l’ingestion de données à partir de sources telles que le stockage cloud (comme Amazon S3, Azure ADLS Gen2 et Google Cloud Storage) et les bus de messages (comme Apache Kafka, Amazon Brokers, Google Pub/Sub, Azure EventHub et Apache Pulsar), ainsi que les transformations de traitement par lots et de diffusion en continu incrémentielles.

Note

Les pipelines déclaratifs Spark Lakeflow nécessitent le plan Premium. Pour plus d’informations, contactez votre équipe de compte Databricks.

Cette section fournit des informations détaillées sur l’utilisation de pipelines. Les rubriques suivantes vous aideront à commencer.

Sujet Descriptif
Concepts de Lakeflow Spark pour les pipelines déclaratifs Découvrez les concepts de haut niveau de SDP, notamment les pipelines, les flux, les tables de streaming et les vues matérialisées.
Tutoriels Suivez les didacticiels pour vous offrir une expérience pratique sur l’utilisation de pipelines.
Développer des pipelines Découvrez comment développer et tester des pipelines qui créent des flux pour l’ingestion et la transformation de données.
Configurer les pipelines Découvrez comment planifier et configurer des pipelines.
Superviser les pipelines Découvrez comment surveiller vos pipelines et résoudre les problèmes de requêtes de pipeline.
Développeurs Découvrez comment utiliser Python et SQL lors du développement de pipelines.
Pipelines dans Databricks SQL Découvrez comment utiliser des tables de streaming et des vues matérialisées dans Databricks SQL.

Plus d’informations