Lakeflow Spark 声明性管道

Lakeflow Spark 声明性管道(SDP)是在 SQL 和 Python 中创建批处理和流式处理数据管道的框架。 Lakeflow SDP 扩展并可与 Apache Spark 声明性管道互作,同时在性能优化的 Databricks Runtime 上运行。 管道的常见用例包括从云存储(如 Amazon S3、Azure ADLS Gen2 和 Google Cloud Storage)和消息总线(如 Apache Kafka、Amazon Kinesis、Google Pub/Sub、Azure EventHub 和 Apache Pulsar)的数据引入,以及增量批处理和流转换。

注释

Lakeflow Spark 的声明式管道需订购 高级版。 有关详细信息,请联系 Databricks 帐户团队。

本部分提供有关使用管道的详细信息。 以下主题将帮助你入门。

主题 Description
Lakeflow Spark 声明性管道概念 了解 SDP 的高级概念,包括管道、流、流式处理表和具体化视图。
教程 按照教程操作,获得使用管道的实际经验。
开发管道 了解如何开发和测试用于创建用于引入和转换数据的流的管道。
配置管道 了解如何计划和配置管道。
监视管道 了解如何监视管道并对管道查询进行故障排除。
开发 人员 了解如何在开发管道时使用 Python 和 SQL。
Databricks SQL 中的管道 了解如何在 Databricks SQL 中使用流式处理表和具体化视图。

详细信息