在复制活动中为管道配置 HDFS

本文概述了如何使用管道中的复制活动从 Hdfs for Pipeline 复制数据。

支持的格式

Hdfs for Pipeline 支持以下文件格式。 有关基于格式的设置,请参阅每篇文章。

支持的配置

有关复制活动下每个选项卡的配置,请分别转到以下部分。

概况

请参阅 常规 设置 指南,以配置 常规 设置选项卡。

来源

复制活动的 选项卡下,Hdfs for Pipeline 支持以下属性。

显示源选项卡和属性列表的屏幕截图。

需要以下属性:

  • 连接:从连接列表中选择一个 Hdfs 用于管道连接。 如果不存在连接,请为管道连接创建新的 Hdfs。

  • 文件路径类型:可以选择“文件路径”、“通配符文件路径”或“文件列表”作为文件路径类型。 每个设置的配置是:

    • 文件路径:如果选择此类型,则可以从指定的文件夹/文件路径复制数据。

    • 通配符文件路径:指定包含通配符的文件夹路径以筛选源文件夹。 允许的通配符为:*(匹配零个或更多字符)和 ?(匹配零个或单个字符)。 如果文件夹或文件名内包含通配符或此转义字符,请使用 ^ 进行转义。 有关更多示例,请转到 文件夹和文件筛选器示例

      • 通配符文件夹路径:指定包含通配符的文件夹路径以筛选源文件夹。

      • 通配符文件名:使用配置的文件夹/通配符文件夹路径下的通配符指定文件名以筛选源文件。

        显示通配符文件路径的 屏幕截图。

    • 文件列表:指示复制指定的文件集。 指向一个文本文件,其中包含要复制的文件列表(每行一个文件,带有数据集中所配置路径的相对路径)。
      使用此选项时,请不要在数据集中指定文件名。 如需更多示例,请参阅文件列表示例

      • 文件夹路径:指定文件夹的路径。 它是必需的。

      • 文件列表路径:指定包含要复制的文件列表的文本文件的路径

        显示文件列表路径的屏幕截图。

  • 递归:指定是以递归方式从子文件夹读取数据,还是仅从指定文件夹读取数据。 请注意,在 选择“递归” 且目标为基于文件的存储时,不会在目标上复制或创建空文件夹或子文件夹。 默认情况下,此属性处于选中状态,在配置 文件列表路径时不适用。

  • 文件格式:从下拉列表中选择应用的文件格式。 选择“设置”以配置文件格式。 有关不同文件格式的设置,请参阅支持格式的文章了解详细信息。

在“高级”下,可以指定以下字段:

  • 按上次修改日期筛选:根据上次修改日期筛选文件。 将文件路径类型配置为文件列表时,此属性不适用。

    • 开始时间(UTC):文件会被选中,如果其上次修改时间大于或等于配置的时间。

    • 结束时间(UTC):若文件的上次修改时间小于配置的时间,则将其选中。

  • 启用分区发现:对于已分区的文件,请指定是否从文件路径分析分区,并将它们添加为附加源列。

    • 分区根路径:当启用了分区发现时,请指定绝对根路径,以便将已分区文件夹读取为数据列。
  • 最大并发连接:此属性指示活动运行期间与数据存储建立的并发连接上限。 仅当想要限制并发连接时,才指定一个值。

  • 使用 HDFS DistCp:指定是否启用 HDFS DistCp 属性组。

    • ResourceManager 端点:YARN(另一个资源调度器)端点。

    • 临时脚本路径:用于存储临时 DistCp 命令脚本的文件夹路径。 脚本文件将生成并在复制作业完成后删除。

    • DistCp 选项:提供给 DistCp 命令的其他选项。

    hdfs distcp 设置的屏幕截图。

  • 其他列:添加其他数据列以存储源文件的相对路径或静态值。 后者支持表达式。

映射

对于“映射”选项卡配置,请转到在“映射”选项卡下配置映射

设置

有关 “设置” 选项卡配置,请参阅 “设置”选项卡下的“配置其他设置”。

表摘要

下表包含有关 Hdfs for Pipeline 中的复制活动的详细信息。

源信息

名称 DESCRIPTION 价值 必选 JSON 脚本属性
连接 与源数据存储的连接。 <用于管道连接的 Hdfs> 是的 连接
文件路径类型 使用的文件路径的类型。 文件路径
通配符文件路径
文件列表
是的 /
文件路径 从路径复制到源数据存储下的文件夹/文件。 <文件路径> 是的 • 文件夹路径
•文件名
通配符路径 配置为筛选源文件夹的源数据存储下包含通配符的文件夹路径。 <通配符路径> 是的 • 通配符FolderPath
• 通配符文件名
文件夹路径 指向包含要复制的文件的文件夹。 <文件夹路径> 文件夹路径
文件列表的路径 指示复制给定的文件集。 指向包含要复制的文件列表的文本文件,其中每行一个文件(即配置路径的相对路径)。 <文件列表的路径> 文件列表路径
以递归方式 指示是要从子文件夹中以递归方式读取数据,还是只从指定的文件夹中读取数据。 请注意,在 选择“递归” 且目标为基于文件的存储时,不会在目标上复制或创建空文件夹或子文件夹。 配置 文件列表的路径时,此属性不适用。 已选择(默认)或取消选择 递归
文件格式 源数据的文件格式。 有关不同文件格式的信息,请参阅支持的格式的文章了解详细信息。 / 是的 /
按上次修改时间筛选 将筛选在 [开始时间、结束时间) 范围内具有上次修改时间的文件,以便进一步处理。

该时间将以 yyyy-mm-ddThh:mm:ss.fffZ 格式应用于 UTC 时区。

可以跳过此属性,这意味着不会应用任何文件属性筛选器。 将文件路径类型配置为文件列表时,此属性不适用。
• 开始时间
• 结束时间
modifiedDatetimeStart
modifiedDatetimeEnd
启用分区发现 是否从文件路径分析分区,并将它们添加为附加的源列。 已选中或未选中(默认值) enablePartitionDiscovery:
true 或 false (默认值)
分区根路径 将分区文件夹读取为数据列的绝对分区根路径。 <你的分区根路径> 分区根路径
最大并发连接数 活动运行期间与数据存储建立的并发连接的上限。 仅当想要限制并发连接时,才指定一个值。 <最大并发连接数> maxConcurrentConnections (最大并发连接数)
使用 HDFS DistCp 指定是否启用 HDFS DistCp 属性组。 选择或取消选择(默认值) /
ResourceManager 端点 YARN(又一个资源协商程序)终结点。 < 资源管理器终结点 > 是(如果使用 DistCp) 资源管理器终端
临时脚本路径 用于存储临时 DistCp 命令脚本的文件夹路径。 脚本文件将生成并在复制作业完成后删除。 < 临时脚本路径 > 是(如果使用 DistCp) tempScriptPath (临时脚本路径)
DistCp 选项 提供给 DistCp 命令的其他选项。 < 您的 distCp 选项 > distcp选项
其他列 添加其他数据列以存储源文件的相对路径或静态值。 后者支持表达式。 • 姓名
•价值
附加列:
•名字
•价值