多个小型 Spark 作业

如果看到许多小型作业,则可能对相对较小的数据集执行许多操作(<10GB)。 小规模操作每次只需几秒钟,但累积起来,每个操作的开销花费的时间也会逐渐增加。

加快小型作业速度的最佳方法是并行运行多个操作。 Lakeflow Spark 声明性管道 会为您自动完成此任务。

其他选项包括:

  • 将操作分成多个笔记本,并使用多任务作业在同一群集上并行运行这些操作。
  • 如果所有查询都以 SQL 编写,请使用 SQL 仓库。 SQL 仓库非常适合许多查询并行运行,因为它们是为这种类型的工作负荷设计的。
  • 参数化笔记本,并使用 for each 任务并行运行笔记本。 使用并发设置并行化级别。 这非常适合无服务器计算