你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

SAP 数据集成示例体系结构

本文是“SAP 扩展和创新数据:最佳做法”一文系列的一部分。

本文介绍从源 SAP 系统到下游目标的 SAP 数据流。 每个目标都在企业的数据旅程中提供一个目的。 体系结构设计使用 Azure 数据服务扩展 SAP 解决方案。 使用 Azure Synapse Analytics 构建新式数据平台,以引入、处理、存储、提供服务和可视化来自各种源的数据。

Apache Spark® 和 Apache Kafka® 是美国和/或其他国家/地区 Apache Software Foundation 的注册商标或商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。

Architecture

下图是 Azure 上的 SAP 数据集成的示例体系结构。 使用此示例体系结构作为起点。

显示 Azure 上的 SAP 数据集成安全体系结构的关系图。 下载此体系结构的 Visio 文件

数据流

以下数据流对应于上图:

  1. 数据源。 系统连接到数据源以启用数据引入和分析。
  2. 数据引入。 Azure 数据工厂和 Synapse 管道支持数据集成。
  3. 数据存储。 数据存储在基于 Azure Blob 存储服务的 Azure 数据湖存储中。
  4. 数据转换和使用。 数据分阶段转换,通过使用 Power BI 的报表来启用消耗,或通过专用终结点启用消耗,使您能够通过专用链接安全地访问数据。
  5. 数据可视化和报告。 可以使用 Power BI 服务或外部应用程序访问报表并可视化数据。

数据源

源 SAP 系统可以使用 Azure 上的 SAP RISE 或 Azure 虚拟机上的 SAP RISE 在本地运行。 它们可以是本地 SQL 服务器、JSON、XML 和日志文件中的半结构化数据,也可以是其他数据仓库系统。 Synapse 管道复制活动可以引入此原始数据。 源系统托管在本地、私有云或公有云中,或者托管在 SAP RISE 订阅中。

SAP 联机事务数据处理(OLTP)和联机分析处理(OLAP)系统是业务数据和事务的中心存储库。 从驻留在这些业务数据存储库中的数据中提取、存储和导入数据,以获取数据中的价值和见解。

使用 Azure 服务,可以从任何源位置集成数据。 根据托管位置、安全控制、作标准、带宽和合同义务规划提取配置。

数据引入

在此体系结构中,数据是使用 Synapse 管道引入的,并使用 Synapse Spark 池的 Data Lake 功能分阶段处理数据。

数据工厂和 Synapse 的管道通过以下 SAP 连接器提取数据:

有关详细信息,请参阅以下资源:

数据存储

在 Data Lake Storage Gen2 中,Azure 存储是构建 Azure 上的企业数据湖的基础。 借助 Data Lake Storage Gen2,可以管理大量数据,因为它服务了数千兆字节的信息,同时保持数百千兆位的吞吐量。

将数据引入数据湖后静态加密。 使用客户管理的密钥进一步增强加密并增加访问控制灵活性。

有关详细信息,请参阅 Data Lake Storage Gen2 简介最佳做法

数据转换和使用

在此体系结构中,从数据源引入的数据存储在 Data Lake Storage Gen2 位置。

可以使用自承载集成运行时(SHIR)在本地环境和云中的数据存储之间管理和运行复制活动。 始终使 SHIR 系统靠近源系统。

使用针对不同阶段的 Data Lake Storage Gen2 目录(如 BronzeSilverGold),将数据存储在存储帐户中。

  • 青铜: Synapse 管道中的复制活动从源系统引入数据。 此引入的数据使用 Data Lake 的铜牌目录以原始格式存储。
  • 银: Synapse Spark 池执行数据质量规则以清理原始数据。 此扩充数据存储在 Data Lake 的 Silver 目录中。
  • 金: 在清理过程之后,Spark 池会将所有必要的规范化处理、数据变换和业务规则应用到 Silver 目录的数据中。 此转换后的数据存储在 Data Lake 的 Gold 目录中。

Synapse Apache Spark 到 Synapse SQL 连接器将规范化数据推送到 Synapse SQL 池,供下游应用程序和 Reporting Services(如 Power BI)使用。 此连接器以最佳方式在无服务器 Apache Spark 池与 Azure Synapse Analytics 工作区中的 SQL 池之间传输数据。

对于存储帐户,专用终结点为客户提供通过专用链接安全地访问虚拟网络上的数据。 专用终结点使用来自虚拟网络地址空间的 IP 地址,用于存储帐户服务。 虚拟网络上的客户与存储帐户之间的网络流量通过虚拟网络和Microsoft主干网络上的专用链接进行遍历,以消除对公共 Internet 的暴露。

数据可视化和报告

在 Power BI 服务中,使用 DirectQuery 安全地从 Synapse SQL 池提取数据。

在专用虚拟网络上的虚拟机中安装的数据网关提供 Power BI 服务和 Synapse SQL 池之间的连接平台。 为了实现安全连接,数据网关使用同一虚拟网络中的专用终结点。

外部应用程序可以使用连接到虚拟网络的专用终结点从 Synapse 无服务器池或专用 SQL 池访问数据。

Components

此体系结构使用多个 Azure 服务和功能。

数据分析

存储

网络和负载均衡器

  • Azure Synapse Analytics 托管的虚拟网络为 Azure Synapse 工作区创建隔离和管理的环境,因此无需管理工作区资源的网络配置。
  • Azure Synapse 托管的专用终结点 使用 Microsoft 主干网络建立到 Azure 资源的专用链接,并在 Azure Synapse 工作区和其他 Azure 资源之间路由流量。
  • Azure 虚拟网络 为不属于 Azure Synapse 工作区的 Azure 资源提供专用网络功能。 可以管理资源之间的访问、安全性和路由。
  • Azure 专用终结点使用源自解决方案虚拟网络的专用 IP 地址,将服务连接到 Azure 托管服务。 此连接可保护 Azure Synapse 工作区和其他 Azure 服务(例如存储、Azure Cosmos DB、Azure SQL 数据库或你自己的 Azure 专用链接服务)之间的网络。

报告

  • Power BI 对已处理的数据执行高级分析和见解。

后续步骤