本文概述了如何使用管道中的复制活动从 Hdfs for Pipeline 复制数据。
支持的格式
Hdfs for Pipeline 支持以下文件格式。 有关基于格式的设置,请参阅每篇文章。
支持的配置
有关复制活动下每个选项卡的配置,请分别转到以下部分。
概况
请参阅 常规 设置 指南,以配置 常规 设置选项卡。
来源
复制活动的 源 选项卡下,Hdfs for Pipeline 支持以下属性。
需要以下属性:
连接:从连接列表中选择一个 Hdfs 用于管道连接。 如果不存在连接,请为管道连接创建新的 Hdfs。
文件路径类型:可以选择“文件路径”、“通配符文件路径”或“文件列表”作为文件路径类型。 每个设置的配置是:
文件路径:如果选择此类型,则可以从指定的文件夹/文件路径复制数据。
通配符文件路径:指定包含通配符的文件夹路径以筛选源文件夹。 允许的通配符为:
*(匹配零个或更多字符)和?(匹配零个或单个字符)。 如果文件夹或文件名内包含通配符或此转义字符,请使用^进行转义。 有关更多示例,请转到 文件夹和文件筛选器示例。通配符文件夹路径:指定包含通配符的文件夹路径以筛选源文件夹。
通配符文件名:使用配置的文件夹/通配符文件夹路径下的通配符指定文件名以筛选源文件。
显示通配符文件路径的
文件列表:指示复制指定的文件集。 指向一个文本文件,其中包含要复制的文件列表(每行一个文件,带有数据集中所配置路径的相对路径)。
使用此选项时,请不要在数据集中指定文件名。 如需更多示例,请参阅文件列表示例。文件夹路径:指定文件夹的路径。 它是必需的。
文件列表路径:指定包含要复制的文件列表的文本文件的路径。
递归:指定是以递归方式从子文件夹读取数据,还是仅从指定文件夹读取数据。 请注意,在 选择“递归” 且目标为基于文件的存储时,不会在目标上复制或创建空文件夹或子文件夹。 默认情况下,此属性处于选中状态,在配置 文件列表路径时不适用。
文件格式:从下拉列表中选择应用的文件格式。 选择“设置”以配置文件格式。 有关不同文件格式的设置,请参阅支持格式的文章了解详细信息。
在“高级”下,可以指定以下字段:
按上次修改日期筛选:根据上次修改日期筛选文件。 将文件路径类型配置为文件列表时,此属性不适用。
开始时间(UTC):文件会被选中,如果其上次修改时间大于或等于配置的时间。
结束时间(UTC):若文件的上次修改时间小于配置的时间,则将其选中。
启用分区发现:对于已分区的文件,请指定是否从文件路径分析分区,并将它们添加为附加源列。
- 分区根路径:当启用了分区发现时,请指定绝对根路径,以便将已分区文件夹读取为数据列。
最大并发连接:此属性指示活动运行期间与数据存储建立的并发连接上限。 仅当想要限制并发连接时,才指定一个值。
使用 HDFS DistCp:指定是否启用 HDFS DistCp 属性组。
ResourceManager 端点:YARN(另一个资源调度器)端点。
临时脚本路径:用于存储临时 DistCp 命令脚本的文件夹路径。 脚本文件将生成并在复制作业完成后删除。
DistCp 选项:提供给 DistCp 命令的其他选项。
其他列:添加其他数据列以存储源文件的相对路径或静态值。 后者支持表达式。
映射
对于“映射”选项卡配置,请转到在“映射”选项卡下配置映射。
设置
有关 “设置” 选项卡配置,请参阅 “设置”选项卡下的“配置其他设置”。
表摘要
下表包含有关 Hdfs for Pipeline 中的复制活动的详细信息。
源信息
| 名称 | DESCRIPTION | 价值 | 必选 | JSON 脚本属性 |
|---|---|---|---|---|
| 连接 | 与源数据存储的连接。 | <用于管道连接的 Hdfs> | 是的 | 连接 |
| 文件路径类型 | 使用的文件路径的类型。 | • 文件路径 • 通配符文件路径 • 文件列表 |
是的 | / |
| 文件路径 | 从路径复制到源数据存储下的文件夹/文件。 | <文件路径> | 是的 | • 文件夹路径 •文件名 |
| 通配符路径 | 配置为筛选源文件夹的源数据存储下包含通配符的文件夹路径。 | <通配符路径> | 是的 | • 通配符FolderPath • 通配符文件名 |
| 文件夹路径 | 指向包含要复制的文件的文件夹。 | <文件夹路径> | 否 | 文件夹路径 |
| 文件列表的路径 | 指示复制给定的文件集。 指向包含要复制的文件列表的文本文件,其中每行一个文件(即配置路径的相对路径)。 | <文件列表的路径> | 否 | 文件列表路径 |
| 以递归方式 | 指示是要从子文件夹中以递归方式读取数据,还是只从指定的文件夹中读取数据。 请注意,在 选择“递归” 且目标为基于文件的存储时,不会在目标上复制或创建空文件夹或子文件夹。 配置 文件列表的路径时,此属性不适用。 | 已选择(默认)或取消选择 | 否 | 递归 |
| 文件格式 | 源数据的文件格式。 有关不同文件格式的信息,请参阅支持的格式的文章了解详细信息。 | / | 是的 | / |
| 按上次修改时间筛选 | 将筛选在 [开始时间、结束时间) 范围内具有上次修改时间的文件,以便进一步处理。 该时间将以 yyyy-mm-ddThh:mm:ss.fffZ 格式应用于 UTC 时区。可以跳过此属性,这意味着不会应用任何文件属性筛选器。 将文件路径类型配置为文件列表时,此属性不适用。 |
• 开始时间 • 结束时间 |
否 | modifiedDatetimeStart modifiedDatetimeEnd |
| 启用分区发现 | 是否从文件路径分析分区,并将它们添加为附加的源列。 | 已选中或未选中(默认值) | 否 | enablePartitionDiscovery: true 或 false (默认值) |
| 分区根路径 | 将分区文件夹读取为数据列的绝对分区根路径。 | <你的分区根路径> | 否 | 分区根路径 |
| 最大并发连接数 | 活动运行期间与数据存储建立的并发连接的上限。 仅当想要限制并发连接时,才指定一个值。 | <最大并发连接数> | 否 | maxConcurrentConnections (最大并发连接数) |
| 使用 HDFS DistCp | 指定是否启用 HDFS DistCp 属性组。 | 选择或取消选择(默认值) | 否 | / |
| ResourceManager 端点 | YARN(又一个资源协商程序)终结点。 | < 资源管理器终结点 > | 是(如果使用 DistCp) | 资源管理器终端 |
| 临时脚本路径 | 用于存储临时 DistCp 命令脚本的文件夹路径。 脚本文件将生成并在复制作业完成后删除。 | < 临时脚本路径 > | 是(如果使用 DistCp) | tempScriptPath (临时脚本路径) |
| DistCp 选项 | 提供给 DistCp 命令的其他选项。 | < 您的 distCp 选项 > | 否 | distcp选项 |
| 其他列 | 添加其他数据列以存储源文件的相对路径或静态值。 后者支持表达式。 | • 姓名 •价值 |
否 | 附加列: •名字 •价值 |