Lakeflow Spark 声明性管道(SDP)是在 SQL 和 Python 中创建批处理和流式处理数据管道的框架。 Lakeflow SDP 扩展并可与 Apache Spark 声明性管道互作,同时在性能优化的 Databricks Runtime 上运行。 管道的常见用例包括从云存储(如 Amazon S3、Azure ADLS Gen2 和 Google Cloud Storage)和消息总线(如 Apache Kafka、Amazon Kinesis、Google Pub/Sub、Azure EventHub 和 Apache Pulsar)的数据引入,以及增量批处理和流转换。
注释
Lakeflow Spark 的声明式管道需订购 高级版。 有关详细信息,请联系 Databricks 帐户团队。
本部分提供有关使用管道的详细信息。 以下主题将帮助你入门。
| 主题 | Description |
|---|---|
| Lakeflow Spark 声明性管道概念 | 了解 SDP 的高级概念,包括管道、流、流式处理表和具体化视图。 |
| 教程 | 按照教程操作,获得使用管道的实际经验。 |
| 开发管道 | 了解如何开发和测试用于创建用于引入和转换数据的流的管道。 |
| 配置管道 | 了解如何计划和配置管道。 |
| 监视管道 | 了解如何监视管道并对管道查询进行故障排除。 |
| 开发 人员 | 了解如何在开发管道时使用 Python 和 SQL。 |
| Databricks SQL 中的管道 | 了解如何在 Databricks SQL 中使用流式处理表和具体化视图。 |