你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Delphix 和 Azure 数据工厂或 Azure Synapse Analytics 对 SAP 数据进行争用

Azure 数据工厂
Azure Synapse Analytics

在许多企业中 SAP 是最关键的应用程序,也是各种数据的主要记录系统。 公司必须能够利用见解数据,以经济高效、可缩放且灵活的方式从 SAP 及其上游和下游应用程序进行分析。 同时,公司还需要使这些数据符合无数法规。

体系结构

以下体系结构概述了在 Azure 数据工厂或 Azure Synapse Analytics 管道中使用 Delphix 持续符合性(Delphix CC)来识别和屏蔽敏感数据。

此图显示了使用 Delphix 来争用 SAP 数据以与 Azure 数据工厂配合使用所需的环境的体系结构。

下载此体系结构的 Visio 文件

注释

此解决方案特定于 Azure 数据工厂和 Azure Synapse Analytics Pipelines。 使用 Delphix 进行数据掩码使用 Delphix 的管道模板进行敏感数据发现尚不适用于 Microsoft Fabric 数据工厂。 请联系 Perforce Delphix 帐户代表,了解 Microsoft Fabric 支持

数据流

以下数据流对应于上图:

  1. 数据工厂使用复制数据活动将数据从源数据存储(SAP HANA)提取到 Azure 文件中的容器。 此容器称为 源数据容器。 数据采用 CSV 格式。 若要使用 SAP HANA 连接器,Microsoft建议部署自承载集成运行时。 有关详细信息,请参阅 使用数据工厂或 Azure Synapse Analytics 从 SAP HANA 复制数据

  2. 数据工厂启动一个迭代器(ForEach 活动),该迭代器循环访问 Delphix 中配置的掩码作业列表。 这些预配置的掩码作业在源数据容器中屏蔽敏感数据。

  3. 对于列表中的每个作业,启动掩码活动通过调用 Delphix CC 引擎上的 REST API 终结点进行身份验证并启动掩码作业。

  4. Delphix CC 引擎从源数据容器读取数据,并运行掩码过程。

  5. 在此掩码过程中,Delphix 会掩码内存中的数据,并将生成的掩码数据写回到目标 Azure 文件容器,该 容器称为目标数据容器

  6. 数据工厂现在启动第二个迭代器(ForEach 活动),用于监视作。

  7. 对于启动的每个作(屏蔽作业),检查状态活动将检查掩码的结果。

  8. 所有掩码作业成功完成后,数据工厂会将屏蔽的数据从目标数据容器加载到 Azure Synapse Analytics。

组件

  • 数据工厂 是用于横向扩展无服务器数据集成和数据转换的提取、转换、加载(ETL)服务。 它提供了一个无代码 UI,用于直观创作和统一的监视和管理。 在此体系结构中,数据工厂协调整个数据掩码工作流。 此工作流包括从 SAP HANA 提取数据、启动掩码作业、监视作,以及将数据加载到 Azure Synapse Analytics 中。

  • Azure 存储 为结构化和非结构化数据提供可缩放的云存储。 在此体系结构中,它将存储原始源数据和屏蔽的输出数据。 它充当提取和加载之间的中间存储层。

  • 自承载集成运行时是一个组件,用于在本地和云环境之间安全移动数据。 在此体系结构中,它通过使用所需的开放数据库连接(ODBC)驱动程序促进从 SAP HANA 提取数据。

  • Azure 虚拟网络 是 Azure 中的专用隔离网络环境。 在此体系结构中,它可实现不属于 Azure Synapse Analytics 工作区的服务之间的安全通信。 它有助于管理资源之间的访问、安全性和路由。

什么是数据工厂?

数据工厂 是托管的无服务器数据集成服务。 它提供了一种可视化体验,用于将数据源与 100 多个内置无维护连接器集成,无需额外付费。 在直观的环境中轻松构造 ETL 并提取、加载、转换(ELT)处理无代码,或编写自己的代码。 若要通过业务见解解锁数据的强大功能,请将集成数据传送到 Azure Synapse Analytics。

什么是 Delphix CC?

Delphix CC 识别敏感信息,并自动执行数据掩码和争用。 它提供了一种自动化的 API 驱动的方法来提供安全数据。

Delphix CC 和数据工厂如何解决自动处理合规数据的问题?

安全数据的移动对所有组织都是一个挑战。 Delphix 简化了实现一致的数据符合性,而数据工厂支持数据集成和移动。 Delphix CC 和数据工厂结合使用行业领先的合规性和自动化产品/服务,以简化按需合规数据的交付。

此解决方案使用数据工厂数据源连接器创建 ETL 管道,使用户能够自动执行以下步骤:

  1. 从记录系统读取数据(SAP HANA),并将其写入 Azure 存储上的 CSV 文件。

  2. 针对文件运行 Delphix 掩码作业,以将敏感数据元素替换为类似但虚构的值。

  3. 将合规数据加载到 Azure Synapse Analytics。

可能的用例

  • 将合规数据从 SAP 应用程序移动到 Microsoft Synapse,以便以成本敏感、快速且可缩放的方式获取必要的数据进行测试。 此体系结构特定于具有 HANA 后端的 SAP 应用程序。 在几分钟内执行数百万个加扰操作。

  • 使用 Delphix 算法框架解决数据的法规要求,例如,遵守加州消费者隐私法(CCPA)、一般数据保护法(Lei Geral de Proteção de Dados、LGPD)和健康保险可移植性和责任法案(HIPAA)。

  • 跨数据源一致屏蔽和争用数据,同时保持集成应用程序测试的引用完整性。 例如,乔治的名称必须始终屏蔽到 Elliot。 或者给定的社会安全号码(SSN)必须始终屏蔽到相同的虚构 SSN,无论乔治和乔治的 SSN 出现在 SAP、Oracle、Salesforce 或任何其他应用程序中。

  • 在不增加训练周期或影响模型和预测准确性的情况下屏蔽和争用数据。

  • 通过更改源连接器来配置适用于本地和云的解决方案。 例如,可以从本地 SAP 应用程序拉取数据,将数据复制到云,并在将数据加载到 Azure Synapse Analytics 之前确保符合性。

主要优点

  • 维持引用完整性的现实、确定性的掩码和争用
  • 抢先识别最常见 SAP 表和模块的敏感数据
  • 本机云实现
  • 基于模板的部署
  • 可缩放
  • 内存中 HANA 硬件成本高昂的替代方法

部署此方案

  1. 在 Azure 上部署 Delphix CC 引擎

  2. 在数据工厂中, 使用 Delphix敏感数据发现通过 Delphix 模板部署数据掩码。 这些模板适用于 Azure Synapse Analytics 管道和数据工厂管道。

  3. 设置自承载集成运行时 以从 SAP HANA 中提取数据。

  4. 在“复制数据”组件的“提取”步骤中将所需源配置为 SAP HANA,在“加载”步骤中将 Synapse 配置为所需目标。 在 Web 活动组件中,输入 Delphix 应用程序 IP 地址或主机名以及用于使用 Delphix CC API 进行身份验证的凭据。

  5. 使用 Delphix 数据工厂模板运行敏感数据发现,以便进行初始设置,并随时预先指定敏感数据,例如架构更改。 此模板为 Delphix CC 提供初始配置,需要扫描可能包含敏感数据的列。 还可以将此工作流与适用于 SAP 的 Delphix 合规性加速器、预先识别的敏感字段和掩码算法配合使用,以保护核心 SAP 表中的数据,例如财务、人力资源和物流模块。 请联系 Delphix 应用此选项。

  6. 创建一个 规则集 ,指示要分析的数据集合。 在 Delphix UI 中运行 分析作业 ,以识别和分类该规则集的敏感字段,并分配适当的掩码算法。

  7. 运行模板。 完成后,Azure Synapse Analytics 包含屏蔽的数据,包括 Delphix Compliance Accelerator for SAP 预识别的关键表和模块中的字段。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Well-Architected Framework

安全性

安全性提供针对故意攻击和滥用宝贵数据和系统的保证。 有关详细信息,请参阅可靠性设计审查检查表

Delphix CC 不可逆地屏蔽数据值,其实际数据仍可完全正常运行,从而能够开发更高质量的代码。 在可用于将数据转换为用户规范的算法集中,Delphix CC 具有专利算法。 该算法有意生成数据冲突,并允许使用掩码数据集上潜在验证例程所需的特定值对数据加盐。 从零信任的角度来看,运算符不需要访问实际数据才能屏蔽它。 可以通过 API 自动完成从 A 点到点 B 的掩码数据的整个传递。

成本优化

成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅成本优化设计评审核对清单

若要查看特定要求如何影响成本,请在 Azure 定价计算器中调整值。

Azure Synapse Analytics: 可以独立缩放计算和存储级别。 计算资源按小时计费,可按需缩放或暂停这些资源。 存储资源按 TB 计费,因此引入数据时成本会增加。

数据工厂: 成本基于每个工作负荷的读取和写入作数、监视作和业务流程活动。 成本随每个额外的数据流以及每个数据流处理的数据量增加。

Delphix CC: 与其他数据符合性产品不同,Delphix 不需要环境的完整物理副本来执行掩码。

由于多种原因,环境冗余可能很昂贵:

  • 设置和维护基础结构所需的时间
  • 基础结构本身的成本
  • 反复将物理数据加载到掩码环境中的时间

性能效率

性能效率是指工作负荷能够高效地缩放以满足用户需求。 有关详细信息,请参阅性能效率设计评审核对清单

Delphix CC 具有水平和垂直可缩放性。 转换发生在内存中并且可以并行化。 该产品既作为服务运行,又作为多节点设备运行,因此可以根据应用程序设计任何大小的解决方案体系结构。 Delphix 是提供大型掩码数据集的市场领导者。

可以增加屏蔽流以使多个 CPU 核心参与单个作业。 有关如何更改内存分配的详细信息,请参阅 “创建掩码作业”。

为了获得大于 1 TB 的数据集的最佳性能, Delphix 超大规模掩码 会将数据集分解成多个模块,然后跨多个连续合规性引擎协调掩码作业。

供稿人

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

其他参与者:

若要查看非公开的LinkedIn个人资料,请登录LinkedIn。

后续步骤