你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

将 Azure Synapse Analytics 与云规模分析配合使用

Azure Synapse Analytics 是预配的集成分析服务,可加快跨数据仓库和大数据系统的见解时间。 Azure Synapse Analytics 汇集了:

  • 企业数据仓库中使用的最佳 SQL 技术。
  • 用于大数据的 Spark 技术。
  • 数据应用(源对齐)以及提取、转换和加载(ETL)或提取、加载和转换(ELT)的管道。

Azure Synapse studio 是 Azure Synapse 中的一种工具,提供统一的管理、监视、编码和安全性体验。 Synapse Studio 与其他 Azure 服务(如 Power BI、Azure Cosmos DB 和 Azure 机器学习)进行了深度集成。

注释

本部分旨在介绍特定于云规模分析的指定配置。 它是官方 Azure Synapse Analytics 文档的补充。

概述

数据登陆区域的初始设置过程中,可以部署单个 Azure Synapse Analytics 工作区供所有分析师和数据科学家使用。 可以为特定数据集成或数据产品创建更多工作区。

如果数据产品需要提供对具有行级别和列级安全性 的标准化数据 的访问权限,则可能需要额外的 Azure Synapse Analytics 工作区。 可以使用 Azure Synapse 池提供这些工作区。 数据产品团队可能需要自己的工作区来创建数据产品,而单独的工作区仅适用于具有范围开发访问权限的产品团队。

Azure Synapse Analytics 设置

部署 Azure Synapse Analytics 的第一步是设置 连接到 Microsoft Purview 帐户的 Azure Synapse 工作区。

Azure Synapse Analytics 网络设置

数据登陆区域使用 Azure Synapse Analytics 托管虚拟网络创建工作区。 与 Azure Synapse 的通信通过它公开的三个终结点进行:SQL 池、按需 SQL 和开发终结点。

在网络级别,云规模分析使用 Synapse 托管的私有终结点。 这些终结点可确保数据登陆区域虚拟网络与 Azure Synapse 工作区之间的所有流量完全通过Microsoft主干网络移动。

Azure Synapse 数据访问控制

Azure Synapse Analytics 中使用具有 Microsoft Entra 直通 的访问控制列表来管理对 Data Lake 中的文件的访问。

对于需要限制返回的列和行的数据,建议使用行级和列级安全性来限制 Azure Synapse SQL 专用池或无服务器池中表上的数据访问。 行级安全性和列级安全性是在数据库级别以及数据库角色之外实现的。

例如,行级别安全性可确保特定数据应用程序(源对齐)或数据产品中的用户只能看到自己的数据。 即使表中包含整个企业的数据。

可以将行级别安全性与列级安全性相结合,以限制对具有敏感数据的列的访问。 这样,行级安全性和列级安全性都在数据库层而不是应用程序层应用访问限制逻辑。 每次尝试从任何层访问数据时都会评估该权限。

注释

Azure Synapse 无服务器 SQL 池支持列级安全性用于视图,但不支持外部表。 对于外部表,可以在外部表顶部创建逻辑视图,然后应用列级安全性。 对于行级安全性,自定义视图可用作解决方法。

有关详细信息,请参阅 Azure Synapse Analytics 数据访问控制

Azure Data Lake 中的 Azure Synapse 数据访问控制

部署 Azure Synapse Analytics 工作区时,需要订阅中的 Azure Data Lake Storage 帐户,或者手动使用存储帐户 URL。 指定的 存储帐户设置为已 部署的 Azure Synapse 工作区的主要存储帐户,用于存储其数据。 Azure Synapse 将数据存储在一个容器中,该容器中名为 /synapse/{workspaceName} 的文件夹包含 Apache Spark 表和 Spark 应用程序日志。 它还具有用于管理你选择安装的任何库的容器。

小窍门

建议在 开发层或 Data Lake 3 帐户上使用专用容器。 此容器用作主存储来存储 Spark 元数据。

有关如何设置数据访问的建议,请参阅 Azure Synapse Analytics 数据访问控制