Azure Data Lake Analytics 任务

适用于:SQL Server Azure 数据工厂中的 SSIS Integration Runtime

使用 Data Lake Analytics 任务,可以将 U-SQL 作业提交到 Azure Data Lake Analytics 服务。 此任务是适用于 Azure 的 SQL Server Integration Services (SSIS) 功能包的组成部分。

有关一般背景信息,请参阅 Azure Data Lake Analytics

Important

Azure Data Lake Analytics 将于 2024 年 2 月 29 日停用。 通过此公告了解更多信息。

配置任务

若要向包添加 Data Lake Analytics 任务,请将任务从 SSIS 工具箱拖到设计器画布中。 然后双击该任务,或右键单击该任务,然后选择“ 编辑”。 此时,“Azure Data Lake Analytics 任务编辑器” 对话框打开。 可以通过 SSIS 设计器或以编程方式来设置属性。

“常规”页配置

使用 “常规 ”页配置任务并提供任务提交的 U-SQL 脚本。

基本配置

可以指定任务的名称和说明。

U-SQL 配置

U-SQL 配置有两个设置: SourceType 和基于 SourceType 值的动态选项。

SourceType 指定 U-SQL 脚本的源。 脚本在 SSIS 包执行期间提交到 Data Lake Analytics 帐户。 下面列出了此属性的选项:

Value Description
DirectInput 通过内联编辑器指定 U-SQL 脚本。 选择此值将显示动态选项 USQLStatement
FileConnection 指定包含 U-SQL 脚本的本地 .usql 文件。 选择此选项将显示动态选项 FileConnection
Variable 指定包含 U-SQL 脚本的 SSIS 变量。 选择此值将显示动态选项 SourceVariable

基于 SourceType 的动态选项 指定的是,U-SQL 查询的脚本内容。

SourceType 动态选项
SourceType = DirectInput 直接在选项框中键入要提交的 U-SQL 查询,或选择浏览按钮 (...) 以在“输入 U-SQL 查询” 对话框中键入 U-SQL 查询。
SourceType = FileConnection 选择现有文件连接管理器,或选择“ <新建连接...”> 以创建新文件连接。 若要了解相关信息,请参阅文件连接管理器文件连接管理器编辑器
SourceType = 变量 选择现有变量,或选择“ <新建变量...”> 以创建新变量。 若要了解相关信息,请参阅 Integration Services (SSIS) 变量添加变量

作业配置

作业配置指定 U-SQL 作业提交属性。

  • AzureDataLakeAnalyticsConnection: 指定提交 U-SQL 脚本的 Data Lake Analytics 帐户。 从已定义的连接管理器的列表中选择连接。 若要创建新连接,请选择“ <新建连接>”。 若要了解相关信息,请参阅 Azure Data Lake Analytics 连接管理器.

  • JobName: 指定 U-SQL 作业的名称。

  • AnalyticsUnits: 指定 U-SQL 作业的分析单元计数。

  • 优先: 指定 U-SQL 作业的优先级。 可以将此属性设置为介于 0 和 1000 之间的值。 数字越小,优先级越高。

  • RuntimeVersion: 指定 U-SQL 作业的 Data Lake Analytics 运行时版本。 默认情况下,此选项设置为“默认”。 通常无需更改此属性。

  • 同步: 布尔值指定任务是否等待作业执行完成。 如果该值设置为 true,则任务在作业完成后标记为 成功 。 如果该值设置为 false,则任务在作业通过准备阶段后标记为 成功

    Value Description
    True 任务结果基于 U-SQL 作业执行结果。 作业成功先于任务成功。 作业失败先于任务失败。 任务成功或失败先于任务完成。
    False 任务结果基于 U-SQL 作业提交和准备结果。 作业提交成功并通过准备阶段先于任务成功。 作业提交失败或未通过准备阶段先于任务失败。 任务成功或失败先于任务完成。
  • 超时: 指定作业执行的超时时间(以秒为单位)。 如果作业超时,就会被取消并标记为“失败”。 如果 同步 设置为 false,则此属性不可用。

“参数映射”页配置

使用 参数映射页,在 Azure Data Lake Analytics 任务编辑器对话框中,将变量映射到 U-SQL 脚本中的参数(U-SQL 变量)。

  • 变量名称: 通过选择 “添加”添加参数映射后,从列表中选择系统或用户定义的变量。 或者,可以选择“ <新建变量...”> ,以使用 “添加变量 ”对话框添加新变量。 若要了解相关信息,请参阅 Integration Services (SSIS) 变量

  • 参数名称: 在 U-SQL 脚本中提供参数/变量名称。 请确保参数名以 @ 符号开头(如 @Param1)。

以下是如何将参数传递到 U-SQL 脚本的示例。

示例 U-SQL 脚本

@searchlog =
    EXTRACT UserId          int,
            Start           DateTime,
            Region          string,
            Query           string,
            Duration        int,
            Urls            string,
            ClickedUrls     string
    FROM @in
    USING Extractors.Tsv(nullEscape:"#NULL#");

@rs1 =
    SELECT Start, Region, Duration
    FROM @searchlog
WHERE Region == "en-gb";

@rs1 =
    SELECT Start, Region, Duration
    FROM @rs1
    WHERE Start <= DateTime.Parse("2012/02/19");

OUTPUT @rs1   
    TO @out
      USING Outputters.Tsv(quoting:false, dateTimeFormat:null);

请注意,输入和输出路径在 @in@out 参数中定义。 U-SQL 脚本中 @in@out 参数的值由参数映射配置动态传递。

变量名称 参数名称
用户:Variable1 @in
用户:Variable2 @out

“表达式”页配置

可以将“常规”页配置中的所有属性都分配为属性表达式,从而启用在运行时动态更新属性。 若要了解相关信息,请参阅在包中使用属性表达式

另请参阅