备份和恢复通过系统备份作、备份数据保护、持续监视和定期恢复测试来确保资源的数据和配置复原能力。 有效的备份和恢复功能使组织能够从数据丢失事件、勒索软件攻击、意外删除和区域灾难中恢复,同时满足法规要求和业务连续性目标。
没有全面的备份和恢复功能:
- 永久数据丢失: 未受保护的资源面临勒索软件、意外删除、恶意内部成员或基础结构故障损害业务运营的不可逆转的数据丢失。
- 延长停机时间: 无法恢复可接受的时间范围内的关键工作负荷会中断业务运营、收入生成和客户服务交付。
- 勒索软件影响: 缺少受保护的备份会强制组织支付赎金要求,或者在勒索软件加密生产数据时接受永久数据丢失。
- 合规性违规: 无法维护可恢复备份会导致监管审核失败、财务处罚和潜在制裁。
- 恢复不确定性: 在实际灾难期间,未经测试的备份可能不完整、损坏或与恢复要求不兼容。
- 区域灾难漏洞: 当主数据和备份数据驻留在同一受影响区域中时,单区域备份存储将产生完整的数据丢失风险。
下面是备份和恢复安全域的三大核心支柱。
备份自动化和覆盖范围: 为具有适当频率和保留期的所有业务关键型资源实施自动备份,确保全面保护,而无需手动干预。 通过治理框架大规模实施备份策略,防止覆盖差距。
相关控件:
备份数据保护: 保护备份数据和作,防止未经授权的访问、恶意删除、勒索软件加密和数据外泄。 实现访问控制、加密、不可变性和冗余,保护备份完整性。
相关控件:
恢复就绪情况: 通过定期测试验证恢复功能,确保备份配置、数据可用性和恢复过程满足定义的恢复时间目标(RTO)和恢复点目标(RPO),以实现业务连续性。
相关控件:
- BR-4:定期测试备份
BR-1:确保定期自动备份
Azure Policy: 请参阅 Azure 内置策略定义:BR-1。
安全原则
为所有业务关键型资源实现自动备份,确保一致的保护,而无需手动干预。 配置与恢复点目标(RPO)和数据保留要求相符的相应备份频率和保留期。 通过治理框架强制实施备份策略,确保跨资源的全面覆盖。
待缓解风险
在没有系统化自动备份的情况下运行的组织面临来自各种威胁和操作故障的重大数据丢失风险。 没有定期自动备份:
- 勒索软件数据丢失: 当备份副本不存在、损坏或加密时,勒索软件攻击会加密生产数据,且没有恢复路径。
- 意外删除影响: 人为错误,包括意外的资源删除、配置更改或数据清除会导致永久数据丢失,而无需备份保护。
- 基础结构故障数据丢失: 当备份副本不存在时,硬件故障、存储损坏或区域性中断会导致完全数据丢失。
- 恶意内部威胁: 恶意内部人员故意删除或损坏数据会造成不可逆转的损坏,除非有独立的备份副本。
- 应用程序错误数据损坏: 软件 bug、更新失败或数据库损坏在生产系统中传播,且缺乏时间点恢复功能。
- 合规要求不合格: 法规框架要求具有数据保留和恢复功能,否则在备份缺失或不完整时会导致审核失败。
手动备份过程会产生覆盖差距、不一致的保护和人为错误风险,导致数据丢失不可避免,而不是可预防。
MITRE ATT&CK
- 影响(TA0040):数据销毁(T1485)永久删除业务关键型数据,以及针对影响(T1486)部署勒索软件而加密的数据,而无需恢复选项。
- 防御逃避(TA0005):损害防御(T1562)禁用备份服务并删除备份副本以防止恢复。
- 持久性(TA0003):保持未被检测到的访问权限,系统性地删除备份,以便在执行破坏性攻击之前。
BR-1.1:为支持的资源启用自动备份
当所有其他安全控制失败时,备份保护提供最终恢复机制,使组织能够在勒索软件攻击、数据损坏、意外删除或基础结构故障(使主要数据无法访问)后还原作。 自动备份配置消除了保护部署中的人为错误,同时确保基础结构在云环境中动态缩放时保持一致的覆盖范围。 通过备份频率实现的恢复点目标直接确定可容忍的最大数据丢失,使备份配置成为关键的业务连续性决策,而不是纯粹的技术实现。
通过以下备份功能建立全面的自动保护:
- 为受支持的资源(包括 Azure 虚拟机、SQL Server、SAP HANA 数据库、Azure Database for PostgreSQL、Azure 文件、Azure 磁盘和 Azure Blob)启用 Azure 备份,以配置符合业务需求的自动备份计划。
备份配置最佳做法:
- 跨资源部署 Azure 备份: 在所有受支持的业务关键型资源(包括 VM、数据库、文件共享和存储帐户)上启用 Azure 备份,确保全面保护,而不会造成覆盖差距。
- 配置备份频率: 根据数据更改率和 RPO 要求定义备份频率,将每小时备份用于高事务数据库和每日备份,以降低数据更改频率。
- 定义保留策略: 建立满足法规要求和业务需求的保留期限,在长期保留与存储成本之间找到平衡。通常情况下,30-90 天用于运营恢复,而 7 年以上用于合规性。
- 实现即时还原: 为 Azure VM 备份启用即时还原功能,允许从基于快照的还原点快速恢复,而无需等待完整备份还原。
- 配置备份窗口: 在低活动期间计划备份作,最大限度地减少对生产工作负荷的性能影响,同时确保在下一个周期之前完成备份。
备份覆盖范围策略:
- 虚拟机保护: 为所有生产 Azure VM 启用 Azure 备份 ,并为 Windows 创建应用程序一致性备份,并为 Linux 捕获完整的系统状态的文件系统一致性备份。
- 数据库备份: 使用事务日志备份为 Azure SQL 数据库、 Azure Database for PostgreSQL、Azure VM 上的 SQL Server 和 SAP HANA 数据库配置自动备份,以便进行时间点恢复。
- 存储帐户保护:为 Azure 文件启用 Azure 备份、为 Azure Blob 存储配置 Blob 版本控制和软删除,并为需要频繁还原的 Blob 实施作备份。
- 磁盘级保护: 为需要从 VM 级别保护进行独立备份的托管磁盘启用 Azure 磁盘备份 ,并提供精细的恢复选项。
BR-1.2:为不支持的资源实现备份
仅依赖 Azure 备份支持的资源列表可为关键基础结构组件(包括 Key Vault 机密、容器映像、Cosmos DB 数据和缺少本机备份集成的自定义应用程序配置)创建保护漏洞。 与通用备份方法相比,Azure 服务中嵌入的本机保护功能(Blob 版本控制、软删除、时间点还原)通常提供针对特定工作负荷特征定制的高级恢复功能。 自定义备份自动化可确保组织在整个技术堆栈中保持全面保护,而不是接受不受支持的组件的数据丢失风险。
通过以下方法将保护扩展到所有关键资源:
- 为 Azure 备份不支持的资源实现本机备份功能或自定义备份解决方案,确保对所有业务关键型服务提供全面的保护。
本机备份实现:
- 启用 Azure Key Vault 备份: 为机密、密钥和证书实现 Azure Key Vault 本机备份,以建立加密材料的自动导出和安全存储。
- 配置存储帐户功能: 为 Azure 存储帐户 启用 Blob 版本控制、软删除和时点恢复,通过提供本机数据保护,而无需单独的备份基础结构。
- 实现容器注册表备份: 为 Azure 容器注册表 启用异地复制,并实现到辅助存储的自动映像导出,确保容器映像恢复功能。
- 配置 Cosmos DB 备份: 为 Azure Cosmos DB 帐户启用连续备份模式,提供具有 30 天保留期的时间点还原功能,或者使用可自定义的间隔配置定期备份。
自定义备份解决方案:
- 将配置导出为代码: 将 Azure 资源配置导出到 Azure 资源管理器 模板、Terraform 配置或 Bicep 文件,这些文件存储在版本控制的存储库中,从而实现基础结构恢复。
- 实现应用程序级备份: 为缺少本机备份的资源设计应用程序特定的备份机制,包括数据导出脚本、配置快照和状态保留。
- 配置 Azure 自动化: 为自定义备份工作流创建 Azure 自动化 Runbook,以便自动执行资源配置导出、数据快照和不受支持的资源的备份验证。
- 建立特定于服务的过程: 为每种资源类型记录并自动执行备份过程,而无需本机支持,确保一致的保护和恢复功能。
BR-1.3:通过治理强制实施备份策略
手动备份配置会在动态云环境中持续部署新资源时造成持续覆盖差距,在人工干预发生之前,未受保护的资源仍易受攻击,通常仅在数据丢失事件后发现。 策略驱动的强制实施将备份从反应式配置转换为主动治理,在创建时自动保护新资源,同时持续监视和修正偏离合规性的现有资源。 集中式策略管理可确保跨分布式团队和订阅的一致保护标准,其中手动流程不可避免地产生配置不一致。
通过策略驱动的治理自动执行备份保护:
- 实现 Azure Policy 以在新的和现有资源上强制实施自动备份,确保跨订阅提供一致的保护,而无需手动配置。
基于策略的备份实施:
- 部署内置备份策略: 分配 Azure Policy 定义,包括“在虚拟机上配置备份”和“应为虚拟机启用 Azure 备份”,确保自动符合性。
- 配置自动修正: 对备份策略启用自动修正,确保自动配置不合规的资源,并具有适当的备份保护。
- 定义策略分配范围: 在管理组或订阅级别应用备份策略,跨多个订阅和资源组提供集中治理。
- 实现合规性监视: 配置 Azure Policy 符合性仪表板,用于跟踪跨资源的备份覆盖范围,确定需要注意的差距。
备份治理框架:
- 建立备份标准: 定义组织备份标准,指定不同资源分类和关键层所需的频率、保留和保护级别。
- 创建资源标记策略: 实现资源标记,这些标记指示备份要求、保留期和恢复优先级,从而基于元数据启用自动策略应用程序。
- 配置策略豁免: 为需要非标准备份配置的资源建立正式的异常过程,并记录了业务理由和补偿控制措施。
- 监视策略有效性: 定期查看策略合规性报告,确定政策差距、豁免滥用和治理改进机会。
实现示例
金融服务组织面临数据保留和业务连续性的法规要求,同时通过每月部署的数千个新资源管理快速云扩展。 手动备份过程创建了覆盖差距和合规性风险。
挑战: 交易系统需要积极的 12 小时 RPO、法规数据需要 7 年的保留期,以及快速资源预配超过了手动备份配置,使新 VM 不受保护。
解决方案方法:
- 为支持的服务自动提供保护: 部署了 Azure 备份,用于 2,000 多个虚拟机,每天两次备份,满足 12 小时的 RPO。 配置了具有 35 天保留期的 Azure SQL 数据库 和 Azure Cosmos DB 连续备份,为交易数据提供 5 分钟的粒度。
- 存储的本机保护: 为 Azure 存储帐户 启用了 Blob 版本控制和软删除,优先使用本机功能而不是依赖单独的备份基础设施。
- 基于策略的强制: 通过自动修正实现 Azure Policy ,确保生产资源在创建后立即接收保护。 建立了“BackupTier”标记策略(金/银/铜),根据业务关键程度自动分配策略。
- 不受支持资源的自动化解决方案:创建了用于 Azure Key Vault 机密和防火墙配置的 Azure Automation 运行手册,保留期为 7 年。
结果: 组织实现了完整的生产覆盖,并在创建资源时立即部署了自动备份保护,消除了手动配置延迟。 基于策略的强制措施确保了一致的合规性,同时自动修正解决了没有手动干预的差距。
严重性级别
必须具有。
控件映射
控件映射
- NIST SP 800-53 Rev.5: CP-9、CP-9(1)、CP-9(3)、CP-9(5)、CP-10(2)
- PCI-DSS v4: 12.10.1、12.10.4
- CIS 控件 v8.1: 11.1、11.2、11.3
- NIST CSF v2.0: 公关。IP-4、RC。RP-1
- ISO 27001:2022: A.8.13
- SOC 2: CC5.1、A1.2
BR-2:保护备份和恢复数据
Azure Policy: 请参阅 Azure 内置策略定义:BR-2。
安全原则
通过多层安全控制来保护备份数据和作,包括访问限制、加密、不可变性和地理冗余。 实施深层防御保护备份基础结构,防止勒索软件、恶意删除、未经授权的访问和区域灾难,确保在需要时恢复功能。
待缓解风险
未能保护备份数据的组织面临勒索软件、恶意内部人员、意外删除和未经授权的访问威胁,损害了恢复功能。 没有备份保护:
- 勒索软件备份加密: 高级勒索软件针对备份系统加密或删除备份副本,消除了强制赎金付款或永久数据丢失的恢复选项。
- 恶意备份删除: 在执行破坏性攻击之前,具有泄露凭据的攻击者会删除备份副本,从而防止事件恢复并最大程度地损坏。
- 内部威胁数据外泄: 恶意内部人员通过备份系统绕过生产数据的访问控制和监控,进而泄露敏感数据。
- 意外备份损坏:未经授权的配置更改、意外删除或不当的备份管理导致备份数据损坏,从而在紧急情况下无法恢复。
- 未经授权的备份访问: 访问控制不足使未经授权的用户能够还原、修改或删除备份数据,从而违反安全性和合规性规定。
- 区域灾难漏洞: 仅在主要区域中存储的备份数据在发生区域性灾难时不可用,以防在需要时进行恢复。
未加保护的备份数据是单点故障,当备份本身成为攻击目标时,数据保护机制失效。
MITRE ATT&CK
- 影响(TA0040):抑制系统恢复(T1490)删除备份副本,防止勒索软件攻击后恢复。
- 防御规避(TA0005):删除指示器(T1070)并损害防御(T1562),禁用监控备份和删除备份日志。
- 凭据访问(TA0006):窃取应用程序访问令牌(T1528)会损害备份服务帐户以访问和损坏备份数据。
- 集合(TA0009):云存储中的数据(T1530)通过绕过生产访问控制的备份系统外泄敏感数据。
BR-2.1:保护备份访问和操作
备份基础结构成为复杂攻击者的主要目标,他们明白销毁的备份消除了勒索软件攻击或破坏性恶意软件部署后的恢复选项。 特权访问控制、多重身份验证和软删除功能将备份系统从被动数据存储转换为主动防御的关键基础结构,即使在入侵尝试期间也能保持可用性。 审核日志记录和警报使安全团队能够在攻击者执行破坏性攻击之前检测备份篡改模式,从而提供对高级持久性威胁的关键预警。
通过以下安全控制保护备份基础结构:
- 为备份作实现访问控制、身份验证和审核日志记录,防止未经授权的访问和恶意活动。
访问控制配置:
- 实现 Azure RBAC 进行备份: 分配 Azure 基于角色的访问控制 角色,包括备份参与者、备份读取者和备份操作员隔离职责,以及强制对备份作的最小特权访问权限。
- 需要多重身份验证: 对关键备份作强制实施多重身份验证,包括还原、保留更改、备份删除和 恢复服务保管库 配置,防止未经授权的访问。
- 启用 Azure 专用链接:为恢复服务保管库配置专用终结点,将备份流量限制为专用网络,防止通过公共 Internet 进行备份数据外泄。
- 实现即时访问:使用 Microsoft Entra Privileged Identity Management 来管理按时间限制的备份管理员访问权限,此功能要求审批工作流,并需提供升高权限的业务理由。
备份操作保护:
- 为备份删除启用 MFA: 配置需要使用 Azure 门户中生成的 PIN 的备份删除操作的安全要求,以防止自动恶意删除。
- 实现软删除:为恢复服务保管库启用软删除,保留已删除的备份数据 14 天,允许在永久删除之前从意外或恶意删除中恢复。
- 配置审核日志记录: 为所有备份作启用 Azure Monitor 日志记录,以跟踪备份创建、删除、还原和配置更改,以实现安全监视和符合性。
- 建立警报规则: 为关键备份事件创建 Azure Monitor 警报,包括备份失败、未经授权的还原作、保留策略更改和软删除禁用。
BR-2.2:加密备份数据
未加密的备份可能由于存储遭到破坏、备份介质丢失或基础设施权限被恶意内部人员滥用而使敏感的组织数据暴露给未经授权的人员,这些内部人员缺乏合法的生产数据访问权限。 加密将备份数据从可读信息转换为经过密码学保护的密文,即使存储控制失败,仍可确保数据保密。 客户管理的加密密钥在满足加密控制法规要求的同时,为云提供商入侵方案提供额外的保护,尽管它们引入了需要记录的恢复过程的关键管理复杂性。
通过加密保护备份数据机密性:
- 为静态和传输中的备份数据实施加密,以保护机密性并满足法规要求。
加密配置:
- 启用平台托管加密:Azure 备份 使用 AES-256 加密自动加密备份数据,并且平台管理的密钥不需要额外的基线保护配置。
- 实现客户管理的密钥:在 Azure Key Vault 中配置客户管理的密钥,以便备份加密,以便组织控制加密密钥并满足特定的合规性要求。
- 保护加密密钥: 为存储备份加密密钥的 Azure Key Vault 启用软删除和清除保护,防止密钥删除并确保备份可恢复性。
- 加密本地备份: 使用 Azure 备份代理 在 Azure 中的传输和存储期间保护数据,为本地备份配置基于通行短语的加密。
密钥管理最佳做法:
- 在备份范围内包括密钥: 确保用于备份加密的客户管理密钥通过Azure Key Vault 进行备份保护,以防止密钥丢失情况发生。
- 实现密钥轮换: 为客户管理的加密密钥建立密钥轮换策略,以平衡安全要求与作复杂性和备份兼容性。
- 监视密钥访问: 启用 Azure Key Vault 日志记录,跟踪加密密钥访问、使用情况和管理作,检测未经授权的密钥访问尝试。
- 文档密钥恢复: 维护加密密钥恢复和备份解密的记录过程,确保密钥管理事件期间的业务连续性。
BR-2.3:实现备份不可变性和冗余
攻击者可以删除或损坏的可变备份对恢复功能提供虚假的置信度,勒索软件攻击者在执行加密之前专门针对备份系统,以消除恢复选项并强制支付赎金。 不可变性将备份从可修改的数据存储转换为只能写入一次的存储,无论管理访问或凭据泄露,都能保持恢复点。 地理冗余可防范区域灾难、数据中心故障和本地化安全事件,这些事件可以同时销毁生产系统和并置备份。
通过不可变性确保备份数据完整性和可用性:
- 配置不可变的备份存储和地理冗余,以防止勒索软件、损坏和区域灾难。
不可变性配置:
- 启用不可变保管库: 为恢复服务保管库配置不可变保管库,以在指定的锁定期内防止备份被删除、保留期被缩短以及软删除功能被禁用,从而抵御勒索软件的威胁。
- 配置保管库锁定周期: 根据法规要求定义最小保留期(通常为 180 天或更长时间),确保无法过早删除备份数据。
- 实现多用户授权: 需要多用户授权才能进行不可变配置更改,防止单个管理员削弱备份保护。
- 监视不可变状态: 在恢复服务保管库中跟踪不可变配置,在尝试禁用保护或减少保留期时发出警报。
地理冗余:
- 启用跨区域还原:为恢复服务保管库配置异地冗余存储(GRS),以便自动将备份数据复制到 Azure 配对区域,从而在区域灾难期间实现恢复。
- 实现区域冗余存储: 为恢复服务保管库启用区域冗余存储(ZRS),防止备份数据免受支持可用性区域的区域内的数据中心级故障的影响。
- 测试跨区域恢复: 定期验证跨区域还原功能,确保备份数据可用性和还原过程在灾难方案中正常工作。
- 文档故障转移过程: 维护跨区域还原的记录过程,包括身份验证、权限和恢复步骤,确保区域中断期间的业务连续性。
实现示例
医疗保健组织遇到针对备份系统的勒索软件攻击,并面临 HIPAA 合规性要求,以保护跨地理分布的医疗设施中的电子健康记录。
挑战: 勒索软件攻击者在加密之前删除备份,HIPAA 需要特定的加密控制,区域灾难方案威胁到关键患者护理系统的数据可用性。
解决方案方法:
- 访问控制和身份验证: 在备份操作员(每日任务)和参与者(策略更改)之间实现了 Azure RBAC 隔离作。 已启用 MFA 和安全 PIN,以防止自动恶意删除操作。
- 加密和符合性:在 Azure Key Vault 中配置了客户管理的密钥,满足组织加密控制 HIPAA 要求。
- 不可变性和勒索软件防御: 启用了具有 365 天保留锁定的不可变保管库,防止即使管理员也无法删除。 配置了 90 天的软删除,提供扩展恢复窗口。
- 网络隔离: 实现了 Azure 专用链接 ,消除了备份流量的公共 Internet 公开。 配置的警报在检测到未经授权的还原尝试时提供早期勒索软件攻击的指示。
结果: 组织在管理凭据遭到入侵的情况下成功防御了勒索软件尝试,备份仍然完好无损且可以恢复。 客户管理的加密密钥和多重身份验证可防止在安全事件期间未经授权访问备份数据。
严重性级别
必须具有。
控件映射
控件映射
- NIST SP 800-53 Rev.5: CP-9(8)、SC-12(1)、SC-13、SC-28、SC-28(1)
- PCI-DSS v4: 3.5.1、10.5.1、12.3.4
- CIS 控件 v8.1: 11.3、11.5、3.11
- NIST CSF v2.0: PR.DS-1, PR.DS-5, PR.IP-4
- ISO 27001:2022: A.8.13、A.8.24、A.5.14
- SOC 2: CC6.1、CC6.7、A1.2
BR-3:监视备份
安全原则
实施对备份作、覆盖范围和合规性的持续监视,确保所有业务关键型资源都维护符合定义的标准的保护。 监视备份运行状况、检测故障和异常警报,以便在备份问题影响恢复功能之前快速响应备份问题。
待缓解风险
无法监视备份操作和合规性的组织无法了解备份失败、覆盖差距和策略违规,从而导致虚假的安全假设。 没有备份监视:
- 无提示备份失败: 备份作业未被检测到地失败,导致资源失去保护,且仅在尝试恢复时才会发现备份副本已过时或缺失。
- 覆盖范围差距: 在没有备份保护的情况下部署的新资源仍然容易受到数据丢失的影响,同时出现在资产清单中,建议进行全面保护。
- 配置偏移: 通过未经授权的修改更改备份策略和保留设置会削弱保护,而无需可见性或警报。
- 合规性违规: 缺少必要的备份保护会导致法规审核失败和处罚,这些问题仅在合规性评估期间被发现。
- 容量问题: 备份存储容量耗尽会阻碍新备份成功,导致资源之间的保护在没有提示的情况下降级。
- 安全事件:未经授权的备份访问、删除或配置更改在未被检测到的情况下发生,这表明可能存在安全漏洞。
缺少备份监视可将备份系统转换为虚假的安全意识,因为保护在纸上存在,但实际上失败。
MITRE ATT&CK
- 防御逃避(TA0005):削弱防御(T1562),通过禁用备份监控来隐藏针对备份系统的恶意活动。
- 影响(TA0040):在执行破坏性攻击之前,抑制系统恢复(T1490)在一段时间内静默损坏或删除备份。
BR-3.1:监控备份健康状况和操作
备份系统的无声故障会在恢复能力上产生虚假的信任,直到灾难发生时揭示数月的不成功备份尝试。因此,持续的健康监控对于验证保护的有效性至关重要。 集中式备份监控将分布式基础设施的状态进行汇总,从而能够在超过恢复点目标的数据丢失时段发生之前主动进行故障修复。 性能跟踪可识别备份基础结构缩放要求和降级模式,这些模式指示在发生完整备份失败之前系统压力或恶意干扰。
通过集中式可观测性监视备份系统可靠性:
- 实现对备份作跟踪作业状态、故障和性能的集中监视,确保备份可靠性。
备份健康监控:
- 启用 Azure 备份报告:使用 Log Analytics 工作区配置 Azure 备份报告,从而集中了解跨订阅的备份作业、存储消耗和受保护项。
- 实现备份中心: 使用 Azure 备份中心 进行统一备份管理和监视,为 恢复服务保管库中的备份资产治理提供单一界面。
- 配置作业监视: 跟踪备份作业完成状态、持续时间和失败率,确定需要调查的性能下降和可靠性问题。
- 监视存储消耗: 跟踪备份存储增长和容量利用率预测存储要求,并防止容量耗尽影响备份成功。
警报配置:
- 配置严重故障警报: 为备份作业失败、快照失败和复制错误创建 Azure Monitor 警报,确保立即通知保护问题。
- 实现运行状况警报: 为 恢复服务保管库 运行状况问题配置警报,包括连接问题、身份验证失败和服务降级。
- 定义警报路由: 根据严重性、资源类型和组织结构,建立警报路由规则,将备份通知定向到相应的团队。
- 设置警报阈值: 定义可接受的故障率和警报阈值,避免警报疲劳,同时确保关键问题立即得到注意。
BR-3.2:监视备份符合性和覆盖范围
运行状况监视可以检测备份系统故障。为了验证保护的符合性,需要跟踪哪些资源能够在符合组织策略和法规要求的情况下维护必要的备份覆盖范围。 合规性监视可识别绕过或丢失备份保护的资源,从而造成数据丢失风险,这种风险会不断升级,直到通过审核发现或在灾难情况下发现。 自动化符合性报告将手动审核转换为持续验证,从而立即捕获覆盖差距,而不是在需要恢复时发现丢失的备份。
通过持续监视验证保护合规性:
- 实施合规监控,确保所有业务关键型资源都保持必要的备份保护,符合组织策略。
合规性监视:
- 利用 Azure Policy 合规性:监控 Azure Policy 合规性仪表板,跟踪备份保护缺失或配置不当的资源,以识别覆盖率差距。
- 实现备份覆盖率报告: 生成定期报告,其中显示了跨资源类型、订阅和资源组的备份保护状态,用于量化覆盖率百分比。
- 跟踪策略豁免: 监控备份策略豁免,确保有记录的业务合理性,并定期审查,以防止豁免被滥用而削弱保护措施。
- 审核配置更改: 跟踪备份配置更改,包括保留策略修改、备份计划调整和保护禁用,以识别未经授权的更改。
运营监控:
- 监视上次备份期限: 跟踪每个受保护资源上次成功备份后的时间,确定指示保护降级或服务问题的过时备份。
- 查看恢复点目标: 将实际备份频率与定义的 RPO 要求进行比较,以确定资源未能达到业务连续性目标。
- 跟踪备份一致性: 监视 VM 和数据库的应用程序一致性备份成功率,确保备份质量满足文件级一致性以外的恢复要求。
- 标识未受保护的资源: 定期扫描订阅,查找未具备备份保护的业务关键型资源,通过资源标记和分类来识别覆盖差距。
实现示例
运营全球电子商务平台的零售组织在审核期间发现了 50 个未受保护的生产 VM,并经历了无提示备份失败,导致检测前 3 天数据丢失。
挑战: 跨多个 Azure 区域的数千个受保护项快速云扩展带来了可见性挑战。 未被发现的静默备份失败,审核揭示了显著的覆盖差距,威胁到业务连续性和合规性。
解决方案方法:
- 集中可见性: 部署 Azure 备份中心 ,实现对多个区域中多个保管库的统一查看。 实现了 Azure 备份报告 跟踪作业成功率和存储趋势。
- 主动警报: 配置的 Azure Monitor 警报针对路由故障发出警示,并将超过 6 小时的作业标记为预警信号,通知待命团队。
- 合规性监视: 利用 Azure Policy 仪表板和自动化的每周报告显示业务部门的覆盖范围。
- 配置保护: 实现了需要批准对关键资源进行保留减少或保护禁用的警报。
结果: 组织通过主动警报和集中监视大幅缩短了备份故障检测时间。 全面的合规性监视消除了与未受保护的业务关键资源相关的审核发现,同时通过识别过时的备份实现存储优化。
严重性级别
应该有。
控件映射
控件映射
- NIST SP 800-53 Rev.5: CP-9(1),SI-4,AU-6,AU-7
- PCI-DSS v4: 10.4.1、10.6.2、12.10.5
- CIS 控件 v8.1:8.2 、8.11、11.2
- NIST CSF v2.0: DE.AE-3、DE.CM-1、RS.AN-1
- ISO 27001:2022: A.8.13、A.8.16
- SOC 2: CC7.2、A1.2
BR-4:定期测试备份
安全原则
通过结构化测试定期验证备份配置和恢复过程,确保备份数据完整性和恢复功能满足定义的恢复时间目标(RTO)和恢复点目标(RPO)。 以适当的频率测试恢复程序,以平衡操作影响与恢复置信度。
待缓解风险
忽视常规备份测试的组织只有在恢复失败时才会发现备份不足。 不进行备份测试:
- 不完整的备份配置: 备份作业虽然成功完成,但捕获的数据集并不完整,重要组件缺失的问题仅在恢复尝试期间才会发现,导致长时间的停机。
- 恢复程序失败: 记录的恢复程序中包含错误、缺少步骤或错误命令,这些问题在高压力的灾难情境中会导致严重后果,因而错误的代价十分高昂。
- RTO/RPO 冲突: 由于测试期间发现意外的并发症、基础结构限制或过程效率低下,实际恢复时间明显超过定义的目标。
- 损坏的备份数据: 尽管备份作业完成和监视成功,但备份数据包含损坏、不一致或导致无法恢复的错误。
- 技能和知识差距: 当专业知识至关重要时,员工缺乏实际恢复经验,导致在实际灾难恢复期间出错、延迟和决策不力。
- 依赖项标识失败: 应用程序依赖项和配置要求未知,直到恢复尝试导致级联故障和延长恢复时间。
未经测试的备份表示具有未知可靠性的理论保护,从而对恢复能力产生虚假的信心,直到灾难证明否则。
MITRE ATT&CK
- 影响(TA0040):数据销毁(T1485)并抑制系统恢复(T1490)在恢复期间未测试的备份配置失败时造成最大损坏。
BR-4.1:实现备份恢复测试
备份系统验证数据捕获,但从不测试恢复会创建未经验证的还原功能,这些假设会在发生备份损坏、配置错误或过程间隔时发生灾难性故障,从而防止成功恢复。 常规恢复测试通过在关键业务事件之前识别完整性问题、过程缺陷和基础结构限制,将理论备份保护转换为已验证的功能。 根据业务需求将实际恢复时间进行对比衡量,以确保恢复目标保持可实现,而不是在生产中断期间才发现目标未达成。
通过结构化恢复测试验证备份有效性:
- 建立结构化备份恢复测试程序,验证数据完整性、恢复过程和时间目标。
恢复测试策略:
- 定义测试范围: 建立恢复测试范围,包括第 1 层应用程序的完整系统恢复、第 2 层应用程序的数据库恢复,以及第 3 层资源的文件级恢复,以平衡彻底性和作影响。
- 计划常规测试: 对关键系统进行每季度恢复测试,对标准系统进行半年,对于不太关键的系统,每年进行一次,确保定期验证,而不会造成过多的作负担。
- 测试不同的恢复方案: 验证多个恢复方案,包括时间点还原、跨区域故障转移、单个文件恢复以及从备份中完成系统重新生成。
- 文档测试结果: 记录恢复测试结果,包括成功状态、实际恢复时间、数据验证结果以及确定创建知识库以改进的问题。
恢复过程验证:
- 还原到非生产环境: 在隔离的非生产环境中执行恢复测试,防止生产影响,同时验证备份完整性和恢复过程。
- 验证数据完整性: 验证还原的数据完整性和一致性,包括数据库完整性检查、文件计数验证和应用程序功能测试,确认备份质量。
- 测量恢复时间: 跟踪每个测试的实际恢复时间,与定义的 RTO 要求进行比较,以确定过程效率低下和基础结构瓶颈。
- 测试恢复点: 验证备份捕获点,将还原的数据与预期状态进行比较,确保满足 RPO 要求,并且在恢复期间不会发生数据丢失。
BR-4.2:验证灾难恢复功能
单个备份恢复测试验证技术功能,但灾难方案需要协调恢复多个相互依赖的系统,且具有单系统测试无法验证的复杂依赖项。 端到端灾难恢复测试揭示了组织的就绪性差距,包括团队协调失败、通信故障以及未记录的依赖项,这些问题尽管存在技术上合理的备份,但仍导致恢复失败。 桌面练习、故障转移演练和业务连续性验证可确保团队可以在压力下执行协调恢复,而不是在时间压力放大错误时发现实际灾难期间的过程差距。
通过综合练习验证组织灾难准备情况:
- 测试端到端灾难恢复方案,验证需要完整系统恢复的主要事件的组织就绪情况。
灾难恢复测试:
- 执行桌面练习: 执行表式灾难恢复练习,模拟各种灾难方案,验证团队协调、决策过程和通信过程。
- 执行故障转移演练: 测试跨区域故障转移功能,以激活次要区域中的备份基础结构,从而验证异地冗余有效性和恢复过程。
- 验证业务连续性: 确保恢复的系统支持业务运营测试应用程序功能、用户访问、集成点和性能要求。
- 测试恢复编排:验证恢复运行手册、自动化脚本和编排工作流,确保在实际灾难期间顺利执行,并且不会发生手动干预错误。
持续改进:
- 记录经验教训: 记录在恢复测试期间确定的问题、低效和改进机会,从而创建用于优化流程的行动项。
- 更新恢复过程: 将从恢复测试中吸取的教训纳入记录的过程,确保恢复能力持续改进。
- 培训恢复团队: 使用恢复测试作为培训机会,确保团队成员在恢复过程中获得实际经验,从而减少实际灾难期间的错误。
- 优化 RTO/RPO 目标: 根据通过测试确定的实际恢复功能调整 RTO 和 RPO 目标,确保业务预期符合技术现实。
实现示例
一家金融服务机构认为他们的 Azure 备份策略是足够的,直到一场影响其 Azure SQL 数据库和 Azure 应用服务的勒索软件事件暴露了恢复程序中的关键漏洞,且还原时间明显长于预期。
挑战: 未经测试的备份配置、未记录的恢复过程和不熟悉的作团队在安全事件期间导致停机时间延长。 在压力下测试实际恢复功能时,业务连续性计划被证明是不切实际的。
解决方案方法:
- 结构化测试程序: 定期进行的季度 Azure SQL 数据库和 Azure 应用服务恢复测试,以验证完整还原。 记录下来的实际恢复时间揭示了导致未能实现目标 RTO 的差距。
- 增量恢复验证: 执行每月 Azure 文件共享级还原测试,确认快速恢复功能。 已验证的 Azure Cosmos DB 时间点还原粒度,用于事务数据。
- 灾难恢复方案: 已执行 Azure Site Recovery 故障转移测试和完整基础结构还原,以隔离环境验证备份完整性和应用程序依赖项。
- 团队准备情况: 使用 Azure 备份 和 Azure Site Recovery 通过季度动手恢复演练训练运营团队,通过改进对 Azure 恢复工具的熟悉,大大减少了平均恢复时间。
- 持续改进: 记录了多项测试改进,包括 Azure 自动化 Runbook 机会和文档差距。 使用自动化的数据库刷新和应用程序重新部署脚本更新了运行手册。
结果: 通过测试练习期间开发的自动化,组织显著减少了 Azure 工作负荷恢复时间。 定期测试揭示了调整为可实现的目标的不切实际恢复目标,确保业务连续性计划反映了运营现实。
严重性级别
应该有。
控件映射
控件映射
- NIST SP 800-53 Rev.5: CP-4、CP-4(1)、CP-9(7)、CP-10
- PCI-DSS v4: 12.10.6
- CIS 控件 v8.1: 11.4、11.5
- NIST CSF v2.0: PR.IP-9, RC.RP-1
- ISO 27001:2022: A.5.30、A.8.13
- SOC 2: A1.3、CC9.1