Fabric 环境中的库管理

Microsoft Fabric 环境提供了用于运行 Spark 作业的灵活配置。 库提供了开发人员想要在其工作中添加的可重用代码。 除了每个 Spark 运行时附带的内置库外,还可以在 Fabric 环境中安装公共库和自定义库。 你可以轻松地将环境附加到笔记本和 Spark 作业定义。

注意

导航到环境所在的工作区,选择你的环境和库管理选项位于“ ”选项卡下。如果没有创建环境,请参阅 Fabric 中的创建、配置和使用环境

内置库

在 Fabric 中,每个运行时版本都预加载了一组特选的内置库,这些库针对 Python、R、Java 和 Scala 的性能、兼容性和安全性进行了优化。 通过环境中的“内置库”部分,可以根据所选运行时浏览和搜索这些预安装的库。

若要查看预安装的包的列表及其每个运行时的版本,请参阅 Fabric 中的 Apache Spark 运行时

重要

Fabric 支持管理包的不同方式。 有关在 Fabric 中管理库的更多选项和 最佳做法 ,请参阅 在 Fabric 中管理 Apache Spark 库 :当工作区具有网络功能(如 工作区出站访问保护托管 VNet)时,将阻止公共存储库(如 PyPI)的访问。 请遵循 在 Fabric 中管理具有有限网络访问权限的库 中的指示,以便在环境中实现无缝库管理。

外部存储库

在“外部存储库”部分中,可以从公共库(如 PyPI 和 Conda)以及专用存储库(如 Azure Artifact Feed)添加库。

注意

当前在 Spark 3.5 中支持从 Azure Artifact Feed 安装库,而在启用了专用链接或出站访问保护的工作区中不支持。

显示“环境外部存储库库”屏幕的屏幕截图。

从公共存储库添加新库

若要从公共存储库(例如 PyPI 或 conda)添加新库,请选择 “从公共存储库添加库”。 在搜索框中输入库名称。 键入时,搜索框会建议常用库,但列表受到限制。 如果未看到库名称,请输入其全名。

  • 如果库名称有效,则会看到可用版本。
  • 如果库名称无效,将收到一条警告,指出该库不存在。

从专用存储库添加新库

为 Azure 工件源设置连接

在 Fabric 中,禁止直接存储凭据。 需要在 数据工厂连接器中设置连接。 下面是设置 Azure Artifact Feed 连接的分步指南。 详细了解 Azure Artifact Feed

  1. 步骤 1:在工作区 设置中,转到 “管理连接和网关”。

    显示环境外部存储库连接器入口点的屏幕截图。

  2. 步骤 2:创建新的 连接。 选择 “云 ”作为类型,然后选择 “Azure 项目源”(预览版) 作为连接类型。 在相应的字段中输入 URL 和用户令牌,并确保选中“允许 Code-First 项目...”访问此连接(预览版)。

    显示创建新连接器屏幕的示例的屏幕截图。

  3. 步骤 3:创建后记录连接 ID,在 Fabric 环境中使用连接需要用到此 ID。

从 Azure 项目源添加库

若要从 Azure Artifact Feed 安装库,请准备一个包含正确库详细信息和专用存储库连接信息的 YML 文件。 典型的 YML 文件包含 Azure 项目源 URL 和身份验证详细信息。 但是,若要使 Fabric 正确识别连接,必须将 URL 和凭据替换为在数据工厂连接器中创建的连接 ID

下面是一个示例:

# Regular YAML
dependencies:
  - pip:
    - fuzzywuzzy==0.18.0
    - wordcloud==1.9.4
    - --index-url <URL_TO_THE_AZURE_ARTIFACT_FEED_WITH_AUTH>

# Replace the Azure Artifact Feed URL with connection ID
dependencies:
  - pip:
    - fuzzywuzzy==0.18.0
    - wordcloud==1.9.4
    - --index-url <YOUR_CONNECTION_ID> 

使用准备好的 YML 文件,可以直接上传它,也可以切换到 YML 编辑器视图 ,将内容粘贴到 Fabric 环境中的编辑器中。 发布环境时,系统会从专用存储库读取包,并将其保存在 Fabric 中。 如果更新 Azure Artifact Feed 中的包,请确保 重新发布环境 以应用最新更改。

注意

  • “列表”视图中,您只能添加、删除或编辑现有私有存储库中的库。 若要添加、删除或编辑专用存储库连接,请切换到 YML 编辑器视图 并直接更新 YML 文件。
  • 当前不支持在专用存储库中即时搜索库。 请确保从专用存储库添加库时 准确输入库名称和版本 。 不正确的包信息将导致环境发布失败。
  • 可以在 YML 文件中指定 多个存储库 。 安装库时,Fabric 按列出的顺序搜索它们,直到找到包。 公共存储库(如 PyPI 和 Conda)会自动在末尾进行搜索,即使它们未包含在 YML 文件中也是如此。

筛选外部库

可以使用包名称作为关键字来筛选外部库列表。

更新外部库

可以在列表视图中更新库 名称版本源类型 。 在 YML 编辑器视图中,还可以更新这些详细信息以及 Azure Artifact Feed 连接 ID

删除外部库

当将鼠标悬停在某一行时,会显示每个库的“删除”选项。 若要删除多个外部库,请选择它们,然后单击“ 删除”。 还可以使用 YML 编辑器视图删除库。

查看依赖项

来自公共存储库的每个外部库可能具有依赖项。 将鼠标悬停在相应行上时,将显示 “视图依赖项 ”选项。 单击此按钮将从公共存储库中提取依赖项树。 如果无法在公共存储库中找到该库,例如,它是 Azure Artifact Feed 中的专用库,则其依赖项信息将不可用。

导出到YML文件

Fabric 提供了将完整外部库列表导出到文件并将其下载到 .yml 本地目录的选项。

自定义库

自定义库是指由你或贵组织构建的代码。 Fabric 支持自定义库文件(.whl.py格式.jar.tar.gz格式)。

注意

Fabric 仅支持 R 语言的 .tar.gz 文件。 用于Python语言的.whl.py文件格式。

显示“环境自定义库”屏幕的屏幕截图。

上传自定义库

你可以将自定义库从本地目录上传到 Fabric 环境。

删除自定义库

将鼠标悬停在相应行上时,将显示每个库的回收站选项。 若要删除多个自定义库,请选择它们,然后选择“ 删除”。

下载所有自定义库

选择自定义库,逐个下载到本地默认下载目录。