快捷方式文件转换

快捷转换会将原始文件(CSV、Parquet 和 JSON)转换为与源数据保持一贯同步Delta 表。 转换由 Fabric Spark 计算执行,它将 OneLake 快捷方式引用的数据复制到托管 Delta 表中,因此无需自行生成和协调传统的提取、转换、加载(ETL)管道。 借助自动架构处理、深度平展功能和对多种压缩格式的支持,快捷转换消除了生成和维护 ETL 管道的复杂性。

Note

快捷转换目前以 公共预览版提供 ,可能会更改。

为何使用快捷转换?

  • 没有手动管道 – Fabric 会自动复制源文件并将其转换为 Delta 格式;无需协调增量加载。
  • 频繁刷新 – Fabric 每 2 分钟 检查一次快捷方式,并几乎立即同步任何更改。
  • 开放和分析就绪 – 输出是任何 Apache Spark 兼容的引擎都可以查询的 Delta Lake 表。
  • 统一治理 – 快捷方式继承 OneLake 世系、权限和Microsoft Purview 策略。
  • 基于 Spark - 转换旨在实现扩展性。

Prerequisites

Requirement Details
Microsoft Fabric SKU 支持 Lakehouse 工作负荷的容量或试用期。
源数据 包含同质 CSV、Parquet 或 JSON 文件的文件夹。
工作区角色 参与者 或更高级别。

支持的源、格式和目标

OneLake 支持的所有数据源都得到支持。

源文件格式 目的地 支持的扩展 支持的压缩类型 注释
CSV (UTF-8、UTF-16) Lakehouse / Tables 文件夹中的 Delta Lake 表 .csv,.txt(分隔符),.tsv(制表符分隔),.psv(竖线分隔), .csv.gz,.csv.bz2 .csv.zip,.csv.snappy 目前不受支持
Parquet Lakehouse /Tables 文件夹中的 Delta Lake 表 .parquet .parquet.snappy,.parquet.gzip,.parquet.lz4,.parquet.brotli,.parquet.zstd
JSON Lakehouse / Tables 文件夹中的 Delta Lake 表 .json,.jsonl,.ndjson .json.gz,.json.bz2,.jsonl.gz,.ndjson.gz,.jsonl.bz2,.ndjson.bz2 .json.zip 和 .json.snappy 至今未被支持
  • Excel 文件支持是路线图的一部分
  • 用于支持非结构化文件格式(.txt、.doc、.docx)并适用于文本分析用例的 AI 转换已上线,更多增强功能即将推出。

设置快捷转换

  1. 在 Lakehouse 中,选择“ 表”部分中的“新建表快捷方式”(即快捷方式转换(预览版) 并选择源(例如 Azure Data Lake、Azure Blob 存储、Dataverse、Amazon S3、GCP、SharePoint、OneDrive 等)。

    显示创建“表快捷方式”的屏幕截图。

  2. 选择文件、配置转换和创建快捷方式 – 浏览到指向包含 CSV 文件的文件夹的现有 OneLake 快捷方式,配置参数并启动创建。

    • CSV 文件中的分隔符 – 选择用于分隔列的字符(逗号、分号、管道、制表符、和号、空格)。
    • 第一行作为标题 - 指示第一行是否包含列名。
    • 表快捷方式名称 – 提供友好名称;Fabric 在 /Tables 下创建它。
  3. “管理快捷方式监控中心”中通过跟踪刷新和查看日志,以确保透明性。

Fabric Spark 计算将数据复制到 Delta 表,并在 “管理”快捷 窗格中显示进度。 Lakehouse 项目中提供了快捷转换功能。 它们在 Lakehouse /Tables 文件夹中创建 Delta Lake 表。

同步的工作原理

初始加载后,Fabric Spark 计算:

  • 每 2 分钟轮询一次快捷方式目标。
  • 检测 新的或修改的文件 ,并相应地追加或覆盖行。
  • 检测 已删除的文件 并删除相应的行。

监视和故障排除

快捷转换包括监视和错误处理,可帮助你跟踪引入状态和诊断问题。

  1. 打开 Lakehouse 并右键单击支撑您转换的快捷方式。
  2. 选择“ 管理快捷方式”。
  3. 在详细信息窗格中,可以查看:
    • 状态 – 上次扫描结果和当前同步状态。
    • 刷新历史记录 – 按时间顺序排列的同步操作列表,其中包括行计数和任何错误详细信息。 显示用于查看转换状态的“监视中心”的屏幕截图。
  4. 在日志中查看更多详细信息以排查故障 屏幕截图,其中显示了如何访问“日志文件”进行故障排除。

Note

暂停删除此选项卡内转换的功能是路线图中即将推出的一部分

局限性

快捷方式转换的当前限制:

  • 仅支持 CSV、Parquet、JSON 文件格式。
  • 文件必须共享相同的架构;尚不支持架构偏移。
  • 转换是经过读取优化的; 表上的 MERGE INTODELETE 语句会被阻止。
  • 仅在 Lakehouse 项(而不是仓库或 KQL 数据库)中可用。
  • CSV 不支持的数据类型: 混合数据类型列、Timestamp_Nanos、复杂逻辑类型 - MAP/LIST/STRUCT、原始二进制
  • Parquet 不支持的数据类型: Timestamp_nanos、INT32/INT64 格式的十进制、INT96、未分配的整数类型 - UINT_8/UINT_16/UINT_64、复杂逻辑类型 - MAP/LIST/STRUCT)
  • JSON 不支持的数据类型: 数组中的混合数据类型、JSON 内的原始二进制数据块、Timestamp_Nanos
  • 在 JSON 中平展数组数据类型: 数组数据类型应保留在增量表中,并且可通过 Spark SQL 和 Pyspark 访问数据,以便进一步转换 Fabric Materialized Lake 视图用于银层
  • 源格式:目前仅支持 CSV、JSON 和 Parquet 文件。
  • JSON 中的平展深度:嵌套结构平展到五层深。 更深入的嵌套需要预处理。
  • 写入操作:转换经过优化以便于读取;不支持直接对转换目标表执行 MERGE INTODELETE 语句。
  • 工作区可用性:仅在 Lakehouse 项(而不是数据仓库或 KQL 数据库)中可用。
  • 文件架构一致性:文件必须共享相同的架构。

Note

将对上述某些内容的支持以及减少限制纳入我们的路线图。 跟踪我们的发布通信以获取进一步更新。

清理

若要停止同步,请从 Lakehouse UI 中删除快捷方式转换。
删除转换不会删除基础文件。