你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 Azure 中选择数据管道编排技术

大多数大数据解决方案都包含在工作流中封装的重复数据处理作。 管道业务流程协调程序有助于自动执行这些工作流。 它可以计划作业、运行工作流以及协调任务之间的依赖关系。

数据管道编排的选项

在 Azure 中,以下服务和工具满足管道业务流程、控制流和数据移动的核心要求:

可以单独使用这些服务和工具,也可以将它们组合在一起来创建混合解决方案。 例如,数据工厂 V2 中的集成运行时(IR)可以在托管的 Azure 计算环境中本机运行 SSIS 包。 这些服务共享一些功能,但它们有一些主要差异。

关键选择条件

若要缩小选项范围,请考虑以下因素:

  • 确定是否需要大数据功能来移动和转换数据。 这些能力通常使用多个GB(千兆字节)到TB(万亿字节)的数据。 如果需要这些功能,请选择专为大数据设计的服务。

  • 确定是否需要可大规模运行的托管服务。 如果这样做,请选择不依赖于本地处理能力的基于云的服务。

  • 检查是否具有本地数据源。 如果这样做,请选择支持云和本地数据源或目标的服务。

  • 检查是否在 Hadoop 分布式文件系统(HDFS)上的 Blob 存储中存储源数据。 如果这样做,请选择支持 Hive 查询的服务。

  • 确定是否需要高级编排来管理跨多个数据源的复杂提取、转换和加载(ETL)工作流。 如果这样做,请选择 Fabric 数据工厂,因为它提供一组连接器、管道业务流程以及与本地和云环境的集成。 它非常适合企业规模的数据移动和转换。

功能矩阵

以下各表汇总了功能上的关键差异。

常规功能

能力 数据工厂 SSIS Oozie on HDInsight 织物数据工厂
托管 是的 是的 是的
基于云的 是的 否(本地) 是的 是的
先决条件 Azure 订阅 SQL Server Azure 订阅,HDInsight 群集 已启用 Fabric 的工作区
管理工具 Azure 门户、PowerShell、CLI、.NET SDK SQL Server Management Studio (SSMS),PowerShell Bash shell、Oozie REST API、Oozie Web 用户界面(UI) 复制作业, 镜像, 管道活动, 数据流 Gen2
定价 按使用情况付费 许可,额外功能增加了成本 包含在 HDInsight 群集中 包含 Fabric 容量

管道功能

能力 数据工厂 SSIS Oozie on HDInsight 织物数据工厂
复制数据 是的 是的 是的 是的
自定义转换 是的 是的 是(MapReduce、Pig 和 Hive 作业) 是的
Azure 机器学习评分 是的 是(使用脚本) 是(通过集成)
HDInsight 按需版 是的
Azure Batch 是的 是的
Pig、Hive 和 MapReduce 是的 是的 是的
Apache Spark 是的 是的
运行 SSIS 包 是的 是的 是的
控制流 是的 是的 是的 是的
访问本地数据 是的 是的 是的

可伸缩性功能

能力 数据工厂 SSIS Oozie on HDInsight 织物数据工厂
纵向扩展 是的 是的
横向扩展 是的 是(通过将工作器节点添加到群集) 是的
针对大数据优化 是的 是的 是的

替代方法

除了传统的基于批处理的业务流程,平台还可以通过 Fabric Real-Time Intelligence 功能使用实时智能。 此方法支持持续的流数据摄取、实时转换以及事件驱动的工作流,从而能够在数据到达时立即做出响应。 它支持高价值场景,例如物联网(IoT)遥测处理、欺诈检测和运营监控。

供稿人

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

若要查看非公开的LinkedIn个人资料,请登录LinkedIn。

后续步骤