你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
以下体系结构概述了在 Azure 数据工厂 提取、转换和加载(ETL) 管道中使用 Delphix 持续符合性(Delphix CC)来识别和屏蔽敏感数据。
体系结构
下载此体系结构的 Visio 文件。
注意
此解决方案特定于 Azure 数据工厂和 Azure Synapse Analytics Pipelines。 Delphix CC 分析和 Delphix CC 掩码模板尚不适用于Microsoft结构数据工厂。 请联系 Perforce Delphix 帐户代表,了解 Microsoft Fabric 支持。
数据流
以下数据流对应于上图:
数据工厂使用复制数据活动将数据从源数据存储提取到 Azure 文件中的容器。 此容器称为源数据容器,数据采用 CSV 格式。
数据工厂启动一个迭代器(ForEach 活动),该迭代器循环访问 Delphix 中配置的掩码作业列表。 这些预配置的掩码作业在源数据容器中屏蔽敏感数据。
对于列表中的每个作业,启动掩码活动通过调用 Delphix CC 引擎上的 REST API 终结点进行身份验证并启动掩码作业。
Delphix CC 引擎从源数据容器读取数据,并运行掩码过程。
在此掩码过程中,Delphix 会屏蔽内存中的数据,并将生成的掩码数据写回到目标 Azure 文件容器,该 容器称为目标数据容器。
数据工厂启动第二个迭代器(ForEach 活动),用于监视实现。
对于启动的每个实现(掩码作业),检查状态活动会检查掩码的结果。
所有掩码作业成功完成后,数据工厂会将屏蔽的数据从目标数据容器加载到指定的目标。
组件
数据工厂 是一项 ETL 服务,用于横向扩展无服务器数据集成和数据转换。 它提供了一个无代码 UI,用于直观创作和统一的监视和管理。 在此体系结构中,数据工厂协调整个数据掩码工作流。 此工作流包括提取数据、启动掩码作业、监视作以及将屏蔽数据加载到目标存储中。
Azure Synapse Analytics 是一种分析服务,它结合了数据集成、企业数据仓库和大数据分析。 在此体系结构中,Azure Synapse Analytics 可以作为屏蔽数据的目标,并包括用于数据集成的数据工厂管道。
Azure 存储 是一种基于云的解决方案,可为结构化和非结构化数据提供可缩放的存储。 在此体系结构中,它将存储原始源数据和屏蔽的输出数据。 Azure 存储充当加载到目标数据存储中的数据的中间存储层。
Azure 虚拟网络 是 Azure 中的专用隔离网络环境。 在此体系结构中,虚拟网络为不属于 Azure Synapse Analytics 工作区的 Azure 资源提供专用网络功能。 它允许管理资源之间的访问、安全性和路由。
其他组件可能包括各种源和目标数据存储,具体取决于特定的用例。 这些组件基于使用的数据源(例如 SAP、Salesforce 或 Oracle EBS)集成到体系结构中。
备选方法
还可以使用 Microsoft Presidio 执行数据模糊处理。 有关详细信息,请参阅 Presidio 数据保护和取消标识 SDK。
方案详细信息
近年来数据量迅速增加。 若要解锁数据的战略价值,需要动态且可移植。 孤岛中的数据限制了其战略价值,难以用于分析目的。
分解数据孤岛带来了挑战:
必须对数据进行处理以适用于通用格式。 ETL 管道必须适应每个记录系统,并且必须进行缩放以支持现代企业的大规模数据集。
当数据从记录系统中移出时,必须遵守有关敏感信息的规定。 客户数据和其他敏感元素必须遮盖,而不会影响数据集的业务价值。
什么是数据工厂?
数据工厂 是托管的无服务器数据集成服务。 它提供了一种可视化体验,用于将数据源与 100 多个内置无维护连接器集成,无需额外付费。 在直观的环境中轻松构造 ETL 并提取、加载、转换(ELT)处理无代码,或编写自己的代码。 若要通过业务见解解锁数据的强大功能,请将集成数据传送到 Azure Synapse Analytics。 Azure Synapse Analytics 还包括数据工厂管道。
什么是 Delphix CC?
Delphix CC 识别敏感信息并自动执行数据掩码。 它提供了一种自动化的 API 驱动的方法来提供安全数据。
Delphix CC 和数据工厂如何解决自动处理合规数据的问题?
Delphix 简化了数据符合性,而数据工厂支持数据集成和移动。 Delphix 和数据工厂结合使用行业领先的合规性和自动化产品/服务,以简化按需合规数据的交付。
此解决方案使用数据工厂数据源连接器创建两个 ETL 管道,以自动执行以下步骤:
从记录系统读取数据并将其写入 Azure Blob 存储中的 CSV 文件。
为 Delphix CC 提供要求,以识别可能包含敏感数据的列,并分配适当的掩码算法。
针对文件运行 Delphix 掩码作业,以将敏感数据元素替换为类似但虚构的值。
将合规数据加载到任何数据工厂支持的数据存储。
可能的用例
安全地为行业特定的解决方案激活 Azure 数据服务
识别和屏蔽大型复杂应用程序中的敏感数据,否则客户数据难以识别。 Delphix 使用户能够自动将合规的数据从 SAP、Salesforce 和 Oracle 电子商务套件(EBS)等源移动到高价值服务层,例如 Azure Synapse Analytics。
使用 Microsoft Azure 连接器安全地解锁、屏蔽和迁移来自任何源的数据。
解决复杂的数据合规性问题
使用 Delphix 算法框架解决数据的法规要求。
为监管需求应用数据就绪规则,如加州消费者隐私法(CCPA)、一般数据保护法(Lei Geral de Proteção de Dados、LGPD)和健康保险可移植性和责任法案(HIPAA)。
向左加速 DevSecOps 移位
为开发和分析管道(例如 Azure DevOps、Jenkins 和 Harness)和其他自动化工作流提供生产级数据。 为此,请屏蔽集中式数据工厂管道中的敏感数据。
在数据源之间一致地屏蔽数据,以保持集成应用程序测试的引用完整性。 例如,乔治的名称必须始终屏蔽到 Elliot。 或者,无论乔治和乔治的社保号码(SSN)是否出现在 Oracle、Salesforce 还是 SAP 中,给定的SSN必须始终被掩盖为同一SSN。
使用合规分析加快 AI 和机器学习算法训练速度
在不增加训练周期的情况下屏蔽数据。
在屏蔽时保留数据完整性,以避免影响模型和预测准确性。
使用任何数据工厂或 Azure Synapse Analytics 连接器来简化给定用例。
主要优点
- 通用连接
- 现实且确定性的屏蔽,可保持引用完整性
- 抢先识别关键企业应用程序的敏感数据
- 本机云实现
- 基于模板的部署
- 可缩放
示例体系结构
以下示例演示如何为此掩码用例构建环境。
前面的示例体系结构具有以下组件:
- 数据工厂或 Azure Synapse Analytics 引入并连接到登陆区域中的生产、未屏蔽的数据。
- 数据将移动到存储中的数据暂存。
- 将生产数据装载到 Delphix CC POD 的网络文件系统(NFS)使管道能够调用 Delphix CC 服务。
- 在数据工厂和较低环境中,返回掩码数据以供分发。
注意事项
这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Well-Architected Framework。
安全性
安全性提供针对故意攻击和滥用宝贵数据和系统的保证。 有关详细信息,请参阅可靠性设计审查检查表。
Delphix CC 不可逆地屏蔽数据值,其实际数据仍可完全正常运行,从而能够开发更高质量的代码。 在可用于将数据转换为用户规范的算法集中,Delphix CC 具有专利算法。 该算法有意生成数据冲突,并允许使用掩码数据集上潜在验证例程所需的特定值对数据加盐。 从零信任的角度来看,运算符不需要访问实际数据来屏蔽它。 可以通过 API 自动完成从 A 点到点 B 的掩码数据的整个传递。
成本优化
成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅成本优化设计评审核对清单。
若要查看特定要求如何影响成本,请在 Azure 定价计算器中调整值。
Azure Synapse Analytics: 可以独立缩放计算和存储级别。 计算资源按小时计费,可按需缩放或暂停这些资源。 存储资源按 TB 计费,因此引入数据时成本会增加。
数据工厂或 Azure Synapse Analytics: 成本基于每个工作负荷的读取和写入作数、监视作和业务流程活动。 成本随每个额外的数据流以及每个数据流处理的数据量增加。
Delphix CC: 与其他数据符合性产品不同,Delphix 不需要环境的完整物理副本来执行掩码。
由于多种原因,环境冗余可能很昂贵:
- 设置和维护基础结构所需的时间
- 基础结构本身的成本
- 反复将物理数据加载到掩码环境中的时间
性能效率
性能效率是指工作负荷能够高效地缩放以满足用户需求。 有关详细信息,请参阅性能效率设计评审核对清单。
Delphix CC 具有水平和垂直可缩放性。 转换发生在内存中并且可以并行化。 该产品既作为服务运行,又作为多节点设备运行,因此可以根据应用程序设计任何大小的解决方案体系结构。 Delphix 是提供大型掩码数据集的市场领导者。
可以增加屏蔽流以使多个 CPU 核心参与单个作业。 有关如何更改内存分配的详细信息,请参阅 “创建掩码作业”。
为了获得大于 1 TB 的数据集的最佳性能, Delphix 超大规模掩码 会将数据集分解成多个模块,然后跨多个连续合规性引擎协调掩码作业。
部署此方案
在数据工厂中,部署 Delphix CC 分析和Delphix CC 掩码 模板。 这些模板适用于 Azure Synapse Analytics 和数据工厂管道。
在“复制数据”组件中,配置所需的源和目标数据存储。 在 Web 活动组件中,输入 Delphix 应用程序 IP 地址或主机名以及用于使用 Delphix CC API 进行身份验证的凭据。
运行 Delphix CC 分析 数据工厂模板进行初始设置,并随时重新标识敏感数据,例如架构更改。 此模板为 Delphix CC 提供初始配置,需要扫描可能包含敏感数据的列。
创建一个 规则集 ,指示要分析的数据集合。 在 Delphix UI 中运行 分析作业 ,以识别和分类该规则集的敏感字段,并分配适当的掩码算法。
在数据工厂 UI 中,打开 Delphix CC 掩码 数据工厂模板。 提供上一步中的掩码作业 ID,然后运行模板。
屏蔽的数据显示在所选的目标数据存储中。
注意
需要具有凭据的 Delphix 应用程序 IP 地址和主机名才能向 Delphix API 进行身份验证。
作者
Microsoft维护本文。 以下参与者撰写了本文。
主要作者:
- Tess Maggio | 产品经理 2
- Arun Saju | 高级员工工程师
- David Wells | 高级总监,Continuous Compliance 产品负责人
其他参与者:
- Jon Burchel | 高级内容开发人员
- Abhishek Narain | 高级项目经理
- Doug Smith | CI/CD DevOps 全球实践总监
- Michael Torok | 社区管理和体验高级总监
若要查看非公开的LinkedIn个人资料,请登录LinkedIn。
后续步骤
参阅以下 Delphix 资源:
详细了解此解决方案中的关键 Azure 服务: