你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Precisely Connect 复制大型机数据

Azure SQL 数据库
Azure SQL 托管实例
Azure Synapse Analytics
Azure Databricks
Azure 事件中心

本文介绍如何使用 Precisely Connect 将大型机和中型机系统迁移到 Azure。 精确连接使用变更数据捕获(CDC)技术提供从旧系统到 Azure 的实时数据复制。

此解决方案提供本地大型机环境和 Azure 云服务之间的数据一致性,同时最大程度地降低对源系统性能的影响。 该体系结构支持各种大型机和中型数据源,并将数据复制到 Azure 目标,例如 Azure SQL 数据库、Azure 事件中心和 Microsoft Fabric。

Apache®、Spark 和火焰徽标是 Apache Software Foundation 在美国和/或其他国家/地区的商标或注册商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。

体系结构

此图显示了用于将大型机和中型系统迁移到 Azure 的体系结构。

下载此体系结构的 Visio 文件

Workflow

以下工作流与上图相对应:

  1. Connect 代理组件使用大型机或中型机的原生实用工具捕获更改日志,并将日志缓存在临时存储中。

  2. 对于大型机系统,由大型机上的发布服务器组件管理数据迁移。

  3. 对于中型系统,侦听器组件管理数据迁移,而不是发布者。 侦听器驻留在 Windows 或 Linux 计算机上。

  4. 发布服务器或侦听器通过增强的安全连接将数据从本地移动到 Azure。 每个工作单元的事务提交和回滚由发布者或侦听器处理,从而维护数据完整性。

  5. Connect Replicator Engine 从发布服务器或侦听器捕获数据并将其应用于目标。 它分发数据进行并行处理。

  6. 事件中心从Precisely Connect接入实时数据变化,以便立即进行处理。

  7. Azure Databricks 或 Fabric(Apache Spark)处理引入的数据,然后将其存储在 Azure 目标或 Fabric Lakehouse 或仓库中,以便进行下游分析和商业智能(BI)。

  8. Connect Controller Daemon 对请求进行身份验证,并在发布服务器或侦听器与 Replicator Engine 之间建立套接字连接。

组件

此体系结构使用以下组件。

网络和标识

  • Azure ExpressRoute 是一种连接服务,它通过来自连接提供商的专用连接将本地网络扩展到 Azure 云平台。 在此体系结构中,ExpressRoute 提供了一个安全的高带宽连接,用于将大型机数据复制到 Azure。

  • Azure VPN 网关 是一种虚拟网络网关服务,可用于创建虚拟网络网关,用于通过公共 Internet 在 Azure 虚拟网络和本地位置之间发送加密流量。 在此体系结构中,可以使用 VPN 网关作为 ExpressRoute 的替代方法,在专用连接不可用时将大型机系统连接到 Azure。

  • Microsoft Entra ID 是可与本地 Active Directory 同步的标识和访问管理服务。 在此体系结构中,Microsoft Entra ID 管理访问 Azure 资源的精确连接组件的身份验证和访问控制。

存储

  • Azure Database for MySQL 是基于开源 MySQL 数据库引擎的社区版的托管关系数据库服务。 在此体系结构中,Azure Database for MySQL 提供复制大型机数据的目标选项。

  • Azure Database for PostgreSQL 是基于开源 PostgreSQL 数据库引擎社区版的托管关系数据库服务。 在此体系结构中,Azure Database for PostgreSQL 可用作大型机数据复制的替代目标数据库。

  • Azure SQL 数据库 是 Azure SQL 系列一部分的服务即服务(PaaS)数据库引擎。 它专为云环境设计,提供托管且持续更新的 PaaS 的所有优势。 SQL 数据库还包含由 AI 提供支持的自动化功能,这些功能可优化性能和持续性。 无服务器计算和超大规模存储选项可按需自动缩放资源。 在此体系结构中,SQL 数据库充当目标数据库,用于通过 Open Database Connectivity (ODBC) 或本机数据库连接接收复制的大型机数据。

  • Azure SQL 托管实例 是一种云数据库服务,提供所有托管和持续更新的 PaaS 优势。 SQL 托管实例与最新的 SQL Server Enterprise Edition 数据库引擎几乎完全兼容。 它还提供用于解决常见安全问题的本机虚拟网络实现。 在此体系结构中,SQL 托管实例可以作为需要 SQL Server 兼容性的大型机数据的目标。

  • Azure 存储是一种云存储解决方案,包括对象、文件、磁盘、队列和表存储。 服务包括用于传输、共享和备份数据的混合存储解决方案和工具。 在此体系结构中,存储为复制的大型机数据和临时缓存提供可缩放的存储。

  • OneLake 是适用于 Fabric 的统一单一 Data Lake。 在此体系结构中,OneLake 用作从事件中心引入数据的存储。

  • Fabric 是一个分析平台,用于统一数据移动、数据处理、引入、转换、实时事件路由和报表生成。 在此体系结构中,Fabric(Fabric 中的 lakehouses、warehouses 或 SQL Database)充当分析和 BI 层的关系存储目标。

分析和报告

  • Power BI 是一组业务分析工具,可在整个组织中提供见解。 Power BI 可以连接到数百个数据源,简化数据准备,并推动计划外分析。 在此体系结构中,Power BI 提供了用于分析复制大型机数据的 BI 功能。 Power BI 原生集成到 Fabric 中,实现统一分析。

监视

  • Azure Monitor 是一种监视服务,提供用于从云和本地环境收集、分析和处理遥测数据的解决方案。 功能包括 Application Insights、Azure Monitor 日志和 Log Analytics。 在此体系结构中,Azure Monitor 为数据复制过程和 Azure 资源提供监视和可观测性。

数据集成商

  • Azure Databricks 是基于 Spark 的统一分析平台,与开源库集成。 它提供了用于运行分析工作负荷的协作工作区。 可以使用 Python、Scala、R 和 SQL 语言生成提取、转换、加载(ETL)管道和协调作业。 在此体系结构中,Azure Databricks 处理并转换复制的大型机数据,供 Azure 数据平台服务使用。

  • Fabric 是一个端到端 AI 支持的分析平台,可在托管的 Spark 计算平台上运行。 在此体系结构中,Fabric Spark 引入和转换复制的大型机数据,使其可供下游 Azure 数据平台和 Fabric 服务使用。

  • 事件中心 是一种实时数据引入服务,每秒可以处理数百万个事件。 可以从多个源引入数据,并将其用于实时分析。 可以根据数据量缩放事件中心。 在此体系结构中,事件中心从“精确连接”引入实时数据更改,以便立即进行处理和分析。

  • 精确连接 是一个数据集成平台,可以集成来自多个源的数据,并提供到 Azure 的实时复制。 可以使用它来复制数据,而无需对应用程序进行更改。 精确连接还可以提高 ETL 作业的性能。 在此体系结构中,Precisely Connect 充当主数据复制引擎,实时捕获大型机数据并将其迁移到 Azure。

方案详细信息

可以使用各种策略将大型机和中型机系统迁移到 Azure。 数据迁移在此过程中起着关键作用。 在混合云体系结构中,必须在大型机或中型系统和 Azure 数据平台之间复制数据。 要维护数据的完整性,需要对业务关键型应用程序进行实时复制。 通过使用 CDC 或批量导入,Precisely Connect 可以帮助实时地将数据从大型机和中型数据源复制到 Azure 数据平台。

Precisely Connect 支持各种大型机和中型数据源,包括以下源:

  • Db2 z/OS
  • 适用于 Linux、UNIX 及 Windows 的 Db2 (LUW)
  • Db2 for i
  • IBM 信息管理系统 (IMS)
  • IBM 虚拟存储访问方法 (VSAM)
  • 文件和代码模板

精确连接将数据转换为事件中心引入的易耗型格式,以便立即处理。 Azure Databricks 或 Fabric 处理引入的数据,以便在 Azure 目标中进行下游消耗和存储。 这些目标包括 SQL 数据库、Azure PostgreSQL 数据库、Azure MySQL 数据库、Azure 数据湖存储和 Fabric 数据湖仓或数据仓库。 精确连接还支持基于数据量和客户要求的可伸缩性。 它复制数据时不会影响性能或使网络承受重负。

可能的用例

  • 将数据从大型机和中型数据源复制到 Azure 数据平台

  • 在混合云体系结构中,大型机或中型系统与 Azure 数据平台之间的数据同步

  • 基于大型机或中型机系统的运营数据在 Azure 上进行近实时分析

  • 将数据从大型机或中型系统迁移到 Azure,而不会影响应用程序

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Well-Architected Framework

可靠性

可靠性有助于确保应用程序能够履行对客户的承诺。 有关详细信息,请参阅 可靠性的设计评审清单。

使用 Azure MonitorApplication Insights 监视数据迁移。 设置警报进行主动管理。

成本优化

成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅 成本优化的设计评审清单。

  • 与维护大型机系统中的数据相比,将数据复制到 Azure 和处理可以节省资金。

  • Azure 门户中的成本管理工具提供了一个成本分析视图,可帮助你分析支出。

  • 可以使用 Azure Databricks 通过自动缩放调整群集大小以优化成本。 与固定配置相比,此方法可以节省资金。

  • Azure 顾问提供关于优化性能和成本管理的建议。

要估计此解决方案的实现成本,请使用 Azure 定价计算器

性能效率

性能效率是指工作负荷能够高效地缩放以满足用户需求。 有关详细信息,请参阅 性能效率的设计评审清单。

  • 精确连接能够根据数据量进行扩展,并优化数据复制。

  • Connect Replicator Engine 可分发数据进行并行处理。 你可根据工作负载的引入来平衡分布情况。

  • SQL Database 无服务器可以根据工作负载量自动缩放。

  • 事件中心可以根据吞吐量单位和分区数进行缩放。

有关详细信息,请参阅 Azure 中的自动缩放最佳做法

作者

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

其他参与者:

若要查看非公开的LinkedIn个人资料,请登录LinkedIn。

后续步骤