你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

优化数据成本的体系结构策略

适用于此 Azure Well-Architected 框架成本优化清单建议:

CO:10 优化数据成本。 具有数据优先级的数据支出。 数据优化应包括对数据管理(分层和保留)、卷、复制、备份、文件格式和存储解决方案的改进。

本指南介绍优化工作负荷的数据成本的建议。 优化数据成本涉及根据数据的重要性和访问频率将与存储和管理相关的费用降到最低。 适当的数据管理可以显著降低开销成本,并与数据实用工具保持一致。 由于存储解决方案和不必要的数据保留,忽视优化数据成本可能会导致膨胀的费用、低效的资源分配和财务浪费。

定义

术语 定义
数据生命周期管理 在整个生命周期内管理数据的过程,从创建到删除。 此过程涉及根据数据的价值和使用模式来组织、存储、保护和存档数据。
数据冗余 跨多个存储系统或位置存储重复数据副本的做法。 数据冗余的目的是提高数据可用性和容错能力。
数据分层 一种存储策略,涉及根据数据访问频率对数据进行分类,并相应地将其存储在存储层上。
保留策略 应在删除数据之前保留数据的持续时间。 它指定必须保留数据的时间段,以满足法律、法规或业务要求。

在特定工作负荷中,可以通过减少与存储和管理数据相关的费用来优化数据成本。 有多种策略和最佳做法可以最大程度地减少数据存储和处理成本。 目标是将数据成本与数据优先级保持一致。 需要根据数据的重要性或访问频率将成本层分配给数据类型。

工作负荷数据成本的主要驱动因素是访问频率、访问延迟和存储量。 以下指南包含优化这些成本驱动因素的成本的策略。

清点数据

在优化数据成本之前,需要生成数据清单。 检查数据访问并确定其在工作负荷及其作中的重要性。 确定经常访问哪些数据,以及哪些数据访问频率较低。 以下清单作可帮助你有效地分配存储资源:

  • 收集数据访问信息: 执行数据审核以识别和编录所有数据存储。 根据数据集对业务运营的重要性、投资回报和使用频率来确定数据集的值。 从数据存储解决方案收集访问日志、使用情况指标或分析。

  • 标识数据类型: 根据数据类型对数据进行分类,例如个人数据、财务数据、知识产权或作数据。 了解每种数据类型的敏感度和关键性。

  • 标识访问模式: 确定数据访问中的模式,例如每日、每周或每月使用模式。 应了解该数据的延迟、文件大小和数据新鲜度要求。

确定数据优先级

数据优先顺序是根据敏感度和关键性对数据类型进行分类和分配重要性级别的过程。 数据优先级应符合环境的重要性。 例如,生产数据比预生产数据更重要。

使用以下步骤评估各种类型的数据对工作负荷的重要性:

  1. 定义优先级: 根据数据对组织的价值、法规要求以及数据丢失的潜在影响,为数据(如高、中、低)建立优先级。 目标是将数据优先级与适当的数据解决方案保持一致。

  2. 分配标签: 为每个数据集标记其敏感度和关键性。 可以根据数据结构和使用情况,在行、列或文件级别应用标签。 对于数据库,可以使用特殊工具来标记数据,并将数据的敏感度和关键性与特定行和列相关联。 此方法提供对数据的管理和访问的精细控制。

优化数据管理

数据管理是存储、移动和保护工作负荷数据的过程。 通过优化数据管理,可以将支出与数据优先级保持一致,并从数据中获得更多价值。 请考虑以下数据管理策略。

优化数据生命周期管理

在整个生命周期内管理数据非常重要。 生命周期的各个阶段包括数据创建(或获取)、存储、使用情况、共享、保留和处置(删除或存档)。 数据生命周期管理的目标是优化数据存储解决方案,同时遵守相关法规和政策。

数据存储具有三个关键成本组件:

  • 存储成本:与存储数据相关的费用,例如每 GB。

  • 事务成本:链接到数据作的成本,例如写入作、读取作和数据检索(每千兆字节)。 读取和写入数据的成本可能不同。

  • 延迟成本:与访问数据的速度或延迟相关的费用。

以下注意事项是数据生命周期管理的基础:

  • 使用数据分层: 数据分层的目标是将访问和保留与最经济高效的存储层保持一致。 存储层的范围从频繁/即时访问(热)到不频繁/延迟的访问(冷)。

    使用不符合数据访问和保留需求的层的成本更高。 例如,应用程序经常访问的数据应位于热存储中。 应用程序不经常访问的数据应位于冷存储中。 有效地管理这些方面有助于确保高效的数据存储。

  • 请考虑符合性要求: 实施数据分层需要仔细考虑合规性要求和数据治理策略。 合规性和法律要求通常驱动数据访问和保留。 建立数据保留策略,确保符合法律、法规和业务需求。

  • 定义数据生命周期策略。 数据生命周期策略根据预定义的条件指定在存储层之间移动数据的时间和方式。 这些策略可确保在所需持续时间内将数据保留在适当的层中。 例如,策略可以声明数据必须在热层中保留 30 天,在冷层中保留 90 天,在存档层中保留一年。 根据法律要求、行业法规或内部策略等因素设置保留期。

  • 使用自动化:保留策略可以触发层之间的数据移动。 在生成任何自定义解决方案之前,应使用平台功能自动执行策略。

    当特定层的保留期过期时,策略可以自动将数据移到下一个低成本层。 例如,当热层的保留期结束时,策略可以将数据移到冷层。 该策略可确保数据根据其访问模式和成本要求持续优化。

权衡:管理数据保留策略需要持续监视和维护。 它可以为数据管理过程带来更多的开销。 它还可能会影响存储成本。 更长的保留期或使用成本较高的存储层可能会增加存储费用。

风险:数据生命周期管理的实现不佳可能导致数据丢失或对关键数据的访问权限有限。 应设置适当的备份和恢复机制,以降低数据丢失的风险。

优化数据分段

优化数据分段涉及以战略方式将数据组织到不同的段,并合并类似的数据类型以有效分配存储资源。 它允许你根据数据优先级定制存储资源的分配。

为了有效地优化数据分段,可以按类型和使用模式对数据进行分类。 然后,根据数据段的作相似性和要求,将数据段置于最有效的解决方案上。 例如,将需要高性能存储的数据放置在具有更快的检索时间的资源上。 存档数据使用成本较低的资源,检索时间较慢。

此方法可确保高需求数据使用更快的存储来获得最佳性能,减少访问的数据使用更便宜的存储。 同样,当数据类型共享使用模式时,应将它们组合在一个资源上,以减少开销、简化管理和改进数据处理。

最小化数据传输

尽量减少数据传输是指减少跨网络移动数据以降低数据传输成本。 它减少了工作负荷移动的数据量,并降低了网络使用费。 若要尽量减少数据传输,请考虑以下建议:

  • 使用正确的位置。 将数据放置在地理位置更靠近其用户的位置。 数据邻近度可减少网络传输,从而加快访问速度并优化成本。
  • 使用缓存。 考虑缓存的好处,以最大程度地减少数据传输。
  • 使用内容分发网络。 内容分发网络可以存储更靠近用户的频繁读取静态数据。 它减少了跨网络的数据移动,并帮助卸载带宽使用情况。

优化安全性和符合性

某些生产数据要求更高的安全性和合规性要求。 这些措施可能会产生与数据保护、加密、备份、保留和审核相关的额外成本。

必须确保数据存储解决方案中的更改符合这些要求。 具有较低安全性和符合性要求的数据通常提供了优化成本的机会。

优化数据量

查找减少存储的数据量的策略有助于降低成本。 通过更改数据的可访问性并实现以下技术,可以有效地优化存储的数据量:

  • 捕获较少的数据:深入了解要捕获的数据。 确定其中任何一项是否不需要用于你的目的。 修改进程、设置或配置以仅捕获基本数据。

  • 压缩数据:压缩通过减小数据大小节省资金。 它在一次写入、读取或很少读取方案中最为有效。 它更适用于更冷的存储。

    权衡:压缩和解压缩数据会增加 CPU 时间。

  • 删除不需要的数据:实施策略以简化存储相关信息的过程。 评估备份和快照的保留期,并删除不再需要的数据。 你可能希望有一个导致最终数据删除的过程,例如第一个存档数据并启用软删除期。 在删除数据之前,请始终考虑可恢复性。

  • 重复数据删除:实现重复数据删除技术以消除冗余数据。 重复数据删除通过确保仅存储唯一的数据块来降低存储要求,因此可以节省成本。 使用哈希算法和数据区块的比较。 定期运行重复数据删除过程,以识别和消除重复数据。

  • 优化用户行为:在收集用户生成的数据的工作负载中,告知用户高效数据存储的重要性。 鼓励他们定期查看和删除不必要的文件和数据。 实现阻止过度数据存储的存储配额或定价模型。

优化数据复制

数据复制涉及创建多个数据副本,并将其存储在其他地理位置或区域中,以确保可靠性。 复制可确保如果一个位置或区域遇到故障或中断,你仍然可以从其他位置的复制副本访问数据。

此冗余有助于提高数据的可用性和复原能力。 它将数据丢失和停机时间的风险降到最低。

若要优化数据复制以优化成本,请考虑以下准则:

  • 评估数据复制要求:评估工作负荷的特定需求,并确定它所需的数据复制级别。 考虑数据关键性、恢复时间目标(RTO)和恢复点目标(RPO)等因素。

  • 选择正确的复制策略:选择与成本优化目标相符的复制技术。 考虑工作负荷的服务级别协议(SLA)要求。

    评估同步复制、异步复制或两者的组合等选项。 根据数据一致性要求和网络带宽注意事项等因素做出决策。 评估工作负荷所需的可用性级别,并评估区域冗余与区域冗余的需求。

  • 优化网络带宽:通过实施压缩和数据重复数据删除技术,最大程度地减少网络带宽的使用。 这些技术可以减少复制期间传输的数据量,从而节省成本。

  • 监视和优化复制频率:根据工作负荷不断变化的需求定期查看和调整复制频率。 微调复制频率有助于通过降低不必要的复制开销来优化成本。

优化备份

备份是定期快照或数据副本,可以独立于主存储创建和存储数据。 如果数据损坏、意外删除或系统故障,可以使用备份将数据还原到其以前的状态。

下面是用于优化备份的一些技术:

  • 数据分类:根据数据的重要性和备份优先级对数据进行分类。 分类有助于将资源集中在备份关键数据上,同时最大程度地降低不太重要的数据的备份成本。

  • 增量备份:请考虑实现增量备份,而不是每次执行完整备份。 增量备份仅捕获自上次备份以来所做的更改,这可以减少存储和网络带宽要求。

    权衡:增量备份需要更多步骤和时间来还原数据。 首先需要还原完整备份,然后按顺序应用每个增量备份,直到到达所需的还原点。

  • 备份压缩:在备份过程中启用压缩以减少备份文件的大小。 压缩备份所需的存储空间更少,因此可以节省成本。

  • 备份存储层:评估备份保留策略,并考虑将旧备份移动到低成本存储层,例如冷存储或存档存储。 将不太频繁访问的备份存储在经济高效的存储选项中有助于优化成本。

  • 备份保留期:根据业务需求和合规性法规查看和调整备份的保留期。 长时间维护备份可能会导致额外的存储成本。

  • 备份频率:分析各种类型的数据的备份频率。 根据数据更改的频率和数据重要性调整备份计划。 这些做法有助于消除不必要的备份并降低存储成本。

优化文件格式

文件格式通过优化数据的输入/输出(I/O)模式和查询模式来影响成本优化。 某些文件格式迎合特定方案。 将文件格式与工作负荷要求保持一致可以提高工作负荷的性能。

下面是常见格式的注意事项:

  • Avro:在处理写入密集型 I/O 模式时,或者当查询模式需要提取整个记录行时,Avro 文件格式是一个不错的选择。 Avro 的序列化和反序列化过程非常高效,因此它与 Kafka 等消息总线兼容,可快速连续生成一系列事件和消息。

  • Parquet 和 Optimized Row Columnar (ORC):Parquet 和 ORC 文件格式在读取繁重的 I/O 模式方案中或查询模式侧重于记录的特定列时,Excel。

    这两种格式都是列式存储,这意味着数据按列而不是逐行存储。 列式存储允许改进的压缩和高效的读取作。 只需要提取所需的列,因此避免了不相关的数据不必要的 I/O。

优化存储解决方案

评估并选择最适合数据的存储方法和系统。 这项工作可能包括切换数据库、使用不同的存储类型或添加缓存机制。 轻松管理是选择存储解决方案时需要考虑的另一个因素。

通过根据数据的特定需求和特征定制存储解决方案,可以在满足性能和可伸缩性需求的同时实现更好的成本效益。 有与切换数据库或交换服务相关的成本,但将数据存储在错误的存储解决方案中可能会花费额外的资金。

下面是几个用例:

  • 切换数据库:可以考虑切换到更符合需求的数据库系统。 例如,如果使用关系数据库,则如果数据面向文档更适合或需要灵活的架构,则可以探索移动到 NoSQL 数据库的选项。

  • 从关系数据库移动到平面文件存储:在某些情况下,将数据存储在平面文件中,而不是传统的关系数据库可以提供简单性和成本效益等优势。 平面文件非常适合某些类型的数据,例如日志文件或不需要复杂查询的数据。 例如,可以将二进制映像存储在 SQL 数据库中,但将二进制图像存储在专门用于处理二进制数据的存储服务中更具成本效益。

  • 使用汇总优化日志数据成本:对于大容量日志数据流,请考虑使用汇总技术来降低存储成本,同时保持分析功能。

  • 从基础结构即服务(IaaS)迁移到平台即服务(PaaS):IaaS 数据库解决方案可能非常耗时和资源密集型属性,从而转移技术团队对核心任务的关注。 数据量的增长以及手动缩放、备份和基础结构维护的挑战可以使 PaaS 解决方案更具成本效益和效率。

  • 添加缓存:若要减少主数据库服务器上的资源使用率,请考虑使用缓存解决方案来缓存复杂的查询结果。 对数据库服务器进行权限调整可能有助于优化成本。 对于适用的用例,请考虑将生存时间(TTL)与缓存的数据配合使用,以减少存储需求并降低成本。

  • 查询优化存储与数据存储存储:查询优化存储旨在快速检索和分析数据。 它们侧重于快速数据引入和读取,但不经常更新。 它们非常适合时序数据以及快速访问最近的数据,但不适用于繁重的事务任务。

    数据存储处理大量的灵活数据,尤其是非结构化或半结构化数据。 尽管数据存储存储可以支持分析,但复杂的任务可能需要专用数据库。 它们最适合在 NoSQL 用例等方案中存储大量变量数据,例如日志或用户生成的内容。

Azure 便利化

清点数据Microsoft Purview 是一系列数据治理、风险和合规性解决方案,可帮助组织管理、保护和管理整个数据资产。 Microsoft Purview 解决方案提供集成覆盖范围,并帮助解决最近远程用户连接增加、组织间数据碎片以及传统 IT 管理角色模糊的问题。

优化数据管理:Azure 存储和 Azure Data Lake Storage 具有不同的 数据访问层。 它们还提供自动执行数据分层和保留的数据 生命周期管理策略

可以使用基于规则的策略将 Blob 数据转换为适当的访问层,或者在其生命周期结束时过期数据。 通过此策略,可以在访问 Blob 时立即将 blob 从冷(或冷)转换为热,以优化性能。

优化备份Azure 备份 服务提供了多种功能来简化备份。 它通过磁盘快照提供本机数据库备份和存储备份等功能。 它支持虚拟机备份、长期保留和备份管理。

下面是服务的一些功能:

  • 监视:可以使用备份中心作为单一窗格来监视作业和日常备份清单。 备份中心提供备份报表的界面,该报表使用 Azure Monitor 日志和 Azure 工作簿。

  • 报告:备份报表提供以下功能:

    • 分配和预测消耗的云存储。
    • 审核备份和还原。
    • 确定各种粒度级别的关键趋势。
    • 深入了解备份的成本优化机会。
  • 预留容量:在提交一年或三年的预留时, Azure 备份存储 预留容量提供保管库标准层存储的备份数据的容量折扣。 预留在预留期内提供固定数量的备份存储容量。

  • 存档层:可以根据组织的合规性规则定义的保留需求,使用 Azure 备份来存储备份数据,包括长期保留(LTR)备份数据。 在大多数情况下,很少访问较旧的备份数据,并且仅出于符合性需求而存储。 除了快照和标准层外,Azure 备份还支持 存档层中 LTR 点的备份。

优化存储解决方案:Azure 有许多存储解决方案。 它们提供各种特性和功能,可帮助根据特定要求优化成本。 Azure 提供指导,可帮助你 选择正确的数据存储

若要选择最合适的存储解决方案和配置,请务必评估数据访问模式、保留需求和性能要求。 使用 Azure 顾问等工具定期监视和优化存储使用情况,有助于进一步优化成本。

优化查询 Azure Monitor Log Analytics 摘要规则 可跨不同服务层自动汇总高引入速率数据流。 此方法通过创建分层体系结构来提供经济高效的长期数据保留,其中详细原始数据聚合为汇总数据集进行分析和报告,从而显著减少存储费用,同时保留分析见解。

成本优化清单

请参阅完整的建议集。