你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

数据仓库和分析

Azure Data Lake Storage
Azure Cosmos DB
Azure 数据工厂
Azure SQL 数据库
Azure 表存储

本示例方案演示一个将大量数据从多个源集成到 Azure 中统一分析平台的数据管道。 此特定方案基于某个销售和营销解决方案,但设计模式与需要对大型数据集进行高级分析的多个行业(例如电子商务、零售和医疗保健)相关。

体系结构

Azure 中数据仓库和分析方案的体系结构

下载此体系结构的 Visio 文件

数据流

数据流经解决方案的情形如下所示:

  1. 对于每个数据源,会定期将所有更新导出到 Azure Data Lake Storage 中的临时区域。
  2. Azure 数据工厂逐渐将数据从 Azure Data Lake Storage 载入 Azure Synapse Analytics 中的临时表。 在此过程中,会清理并转换数据。 Polybase 可将大型数据集的处理过程并行化。
  3. 将新的一批数据载入仓库后,会刷新以前创建的 Azure Analysis Services 表格模型。 此语义模型简化了业务数据和关系的分析。
  4. 业务分析师使用 Microsoft Power BI 通过 Analysis Services 语义模型来分析数据仓库数据。

组件

该公司的数据源位于多个不同的平台上:

  • 本地 SQL Server
  • 本地 Oracle 平台
  • Azure SQL 数据库
  • Azure 表存储
  • Azure Cosmos DB

使用多个 Azure 组件从不同的数据源加载数据:

  • Data Lake Storage 是结构化和非结构化数据的可缩放数据存储服务。 在此体系结构中,它会在 Azure Synapse Analytics 加载数据之前暂存源数据。 它充当原始数据的初始登陆区域。
  • Azure 数据工厂 是基于云的数据集成服务。 在此体系结构中,它将暂存数据的转换协调为 Azure Synapse Analytics 中的通用结构。 Azure 数据工厂将数据 加载到 Azure Synapse Analytics 时使用 PolyBase ,以最大程度地提高吞吐量。
  • Azure Synapse Analytics 是一个分布式分析系统,结合了大数据和数据仓库。 在此体系结构中。 它通过使用大规模并行处理(MPP)来存储和分析大型数据集。 它充当核心分析引擎。 Azure Synapse Analytics 可以使用 PolyBase 快速加载 Data Lake Storage 中的数据。
  • Analysis Services 是一个完全托管的平台,用于生成语义数据模型。 在此体系结构中,它提供了一个表格语义模型,用于简化数据分析并提高查询性能。 可以将它配置为在将数据加载到 Azure Synapse Analytics 后刷新,以确保 up-to-date 见解。
  • Power BI 是一套用于分析数据和共享见解的业务分析工具。 在此体系结构中,Power BI 使业务分析师能够浏览和可视化数据。 它连接到 Analysis Services 进行语义查询,或直接连接到 Azure Synapse Analytics 进行原始数据访问。
  • Microsoft Entra ID 是 Microsoft 推出的基于云的标识和访问管理服务。 在此体系结构中,它通过 Power BI 对连接到 Analysis Services 服务器的用户进行身份验证。 Azure 数据工厂还可以使用 Microsoft Entra ID 通过 Azure 资源的服务主体或 托管标识向 Azure Synapse Analytics 进行身份验证。

备选方法

方案详细信息

本示例演示了一家需要创建激励计划的销售和营销公司。 这些计划涉及到客户、供应商、销售人员和员工的奖励。 数据是这些计划的基础,该公司希望改善使用 Azure 通过数据分析获得的见解。

公司需要一种新式方法来分析数据,以便在正确的时间使用正确的数据做出决策。 该公司的目标包括:

  • 将不同种类的数据源合并到一个云规模的平台。
  • 将源数据转换为常见的分类和结构,使数据保持一致并可轻松进行比较。
  • 使用支持数千个激励计划的高度并行化方法加载数据,并避免部署和维护本地基础结构所产生的较高成本。
  • 大幅减少收集和转换数据所需的时间,以便可以专注于分析数据。

可能的用例

此方法还可以用来:

  • 建立数据仓库,用作数据的单一事实源。
  • 将关系数据源与其他非结构化数据集相集成。
  • 使用语义建模和强大的可视化工具来简化数据分析。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改进工作负荷质量的指导原则。 有关详细信息,请参阅 Well-Architected Framework

之所以选择此体系结构中的技术,是因为它们符合公司在可伸缩性与可用性方面的要求,同时有助于控制成本。

成本优化

成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅 成本优化的设计评审清单

通过 Azure 定价计算器查看 数据仓库方案的定价示例 。 请调整值,查看要求如何影响成本。

  • 使用 Azure Synapse 可以独立缩放计算和存储级别。 计算资源按小时计费,可按需缩放或暂停这些资源。 存储资源按 TB 计费,因此,引入的数据越多,费用就越高。
  • 数据工厂 成本基于工作负荷中执行的读/写作数、监视作和业务流程活动数。 每增加一个数据流和每增加一个单位的处理数据量,数据工厂的费用都会增加。
  • Analysis Services 在开发人员、基本层和标准层中可用。 实例按查询处理单位 (QPU) 和可用内存定价。 为了控制成本,请尽量减少运行的查询数、查询处理的数据量以及查询的运行频率。
  • Power BI 有不同的产品选项以满足不同的要求。 Power BI Embedded 提供了一个基于 Azure 的选项,用于在应用程序中嵌入 Power BI 功能。 上述定价示例包括 Power BI Embedded 实例。

作者

本文由 Microsoft 维护, 最初由以下参与者撰写。

主要作者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤