Apache Spark 作业定义是一个Microsoft Fabric 代码项,可用于将批处理/流式处理作业提交到 Spark 群集。 通过从不同语言的编译输出(例如,从 Java .jar)上传二进制文件,可以将不同的转换逻辑应用于 lakehouse 上托管的数据。 除了二进制文件,还可以通过上传更多库和命令行参数来进一步自定义作业的行为。
若要运行 Spark 作业定义,必须至少有一个与它关联的 Lakehouse。 此默认 Lakehouse 上下文充当 Spark 运行时的默认文件系统。 对于使用相对路径读取/写入数据的任何 Spark 代码,数据将从默认 Lakehouse 提供。
重要
若要运行 Spark 作业定义项,必须具有主定义文件和默认 Lakehouse 上下文。 如果没有 Lakehouse,请按照 创建 Lakehouse 中的步骤进行创建。