你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
大多数大数据解决方案都包含在工作流中封装的重复数据处理作。 管道业务流程协调程序有助于自动执行这些工作流。 它可以计划作业、运行工作流以及协调任务之间的依赖关系。
数据管道编排的选项
在 Azure 中,以下服务和工具满足管道业务流程、控制流和数据移动的核心要求:
- Azure 数据工厂
- Azure HDInsight 上的 Apache Oozie
- SQL Server Integration Services (SSIS)
- Fabric Data Factory
可以单独使用这些服务和工具,也可以将它们组合在一起来创建混合解决方案。 例如,数据工厂 V2 中的集成运行时(IR)可以在托管的 Azure 计算环境中本机运行 SSIS 包。 这些服务共享一些功能,但它们有一些主要差异。
关键选择条件
若要缩小选项范围,请考虑以下因素:
确定是否需要大数据功能来移动和转换数据。 这些能力通常使用多个GB(千兆字节)到TB(万亿字节)的数据。 如果需要这些功能,请选择专为大数据设计的服务。
确定是否需要可大规模运行的托管服务。 如果这样做,请选择不依赖于本地处理能力的基于云的服务。
检查是否具有本地数据源。 如果这样做,请选择支持云和本地数据源或目标的服务。
检查是否在 Hadoop 分布式文件系统(HDFS)上的 Blob 存储中存储源数据。 如果这样做,请选择支持 Hive 查询的服务。
确定是否需要高级编排来管理跨多个数据源的复杂提取、转换和加载(ETL)工作流。 如果这样做,请选择 Fabric 数据工厂,因为它提供一组连接器、管道业务流程以及与本地和云环境的集成。 它非常适合企业规模的数据移动和转换。
功能矩阵
以下各表汇总了功能上的关键差异。
常规功能
| 能力 | 数据工厂 | SSIS | Oozie on HDInsight | 织物数据工厂 |
|---|---|---|---|---|
| 托管 | 是的 | 否 | 是的 | 是的 |
| 基于云的 | 是的 | 否(本地) | 是的 | 是的 |
| 先决条件 | Azure 订阅 | SQL Server | Azure 订阅,HDInsight 群集 | 已启用 Fabric 的工作区 |
| 管理工具 | Azure 门户、PowerShell、CLI、.NET SDK | SQL Server Management Studio (SSMS),PowerShell | Bash shell、Oozie REST API、Oozie Web 用户界面(UI) | 复制作业, 镜像, 管道活动, 数据流 Gen2 |
| 定价 | 按使用情况付费 | 许可,额外功能增加了成本 | 包含在 HDInsight 群集中 | 包含 Fabric 容量 |
管道功能
| 能力 | 数据工厂 | SSIS | Oozie on HDInsight | 织物数据工厂 |
|---|---|---|---|---|
| 复制数据 | 是的 | 是的 | 是的 | 是的 |
| 自定义转换 | 是的 | 是的 | 是(MapReduce、Pig 和 Hive 作业) | 是的 |
| Azure 机器学习评分 | 是的 | 是(使用脚本) | 否 | 是(通过集成) |
| HDInsight 按需版 | 是的 | 否 | 否 | 否 |
| Azure Batch | 是的 | 否 | 否 | 是的 |
| Pig、Hive 和 MapReduce | 是的 | 否 | 是的 | 是的 |
| Apache Spark | 是的 | 否 | 否 | 是的 |
| 运行 SSIS 包 | 是的 | 是的 | 否 | 是的 |
| 控制流 | 是的 | 是的 | 是的 | 是的 |
| 访问本地数据 | 是的 | 是的 | 否 | 是的 |
可伸缩性功能
| 能力 | 数据工厂 | SSIS | Oozie on HDInsight | 织物数据工厂 |
|---|---|---|---|---|
| 纵向扩展 | 是的 | 否 | 否 | 是的 |
| 横向扩展 | 是的 | 否 | 是(通过将工作器节点添加到群集) | 是的 |
| 针对大数据优化 | 是的 | 否 | 是的 | 是的 |
替代方法
除了传统的基于批处理的业务流程,平台还可以通过 Fabric Real-Time Intelligence 功能使用实时智能。 此方法支持持续的流数据摄取、实时转换以及事件驱动的工作流,从而能够在数据到达时立即做出响应。 它支持高价值场景,例如物联网(IoT)遥测处理、欺诈检测和运营监控。
供稿人
Microsoft维护本文。 以下参与者撰写了本文。
主要作者:
- Zoiner Tejada | CEO 兼架构师
若要查看非公开的LinkedIn个人资料,请登录LinkedIn。
后续步骤
- Fabric 数据工厂中的管道和活动
- 在数据工厂中预配 Azure-SSIS 集成运行时
- 使用 Oozie 在 HDInsight 上运行工作流
- Fabric Real-Time Intelligence 中的奖牌体系结构