在 Microsoft Fabric 中使用 Data Wrangler 加速数据准备

Data Wrangler 通过提供沉浸式可视化界面来加速数据准备工作流,以便进行探索数据分析。 在这篇文章中,你将学会如何:

  • 从 Fabric 笔记本启动 Data Wrangler
  • 使用交互式可视化效果和摘要统计信息浏览数据
  • 使用自动代码生成来应用常见的数据清理操作
  • 将可重用 pandas 或 PySpark 函数导出回笔记本

本文重点介绍 pandas DataFrames。 有关 Spark 数据帧,请参阅 此资源

先决条件

限制

  • 自定义代码操作目前仅支持 pandas 数据帧。
  • Data Wrangler 显示器在大型监视器上效果最佳。 但是,可以最小化或隐藏界面的不同部分以适应较小的屏幕。

启动数据整理器

可以直接从 Microsoft Fabric 笔记本中启动 Data Wrangler,来对任何 pandas 或 Spark 数据帧进行浏览和转换。

若要开始使用示例数据,

此代码片段演示如何将示例数据读取到 pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

在笔记本功能区“开始”选项卡中,使用 Data Wrangler 下拉列表浏览可用于编辑的活动数据帧。 选择要在数据整理器中打开的 pandas DataFrame。

提示

当笔记本内核繁忙时,无法打开 Data Wrangler。 执行单元格必须先完成,然后 Data Wrangler 才能启动,如以下屏幕截图所示:

显示包含“数据整理器”下拉列表提示的 Fabric 笔记本的屏幕截图。

选择自定义示例

若要使用 Data Wrangler 打开任何活动 DataFrame 的自定义示例,请从下拉列表中选择 “选择自定义示例 ”,如以下屏幕截图所示:

显示“Data Wrangler”下拉列表提示的屏幕截图,其中概述了示例选项。

此操作将打开一个对话框,您可以在其中选择选项来指定所需数据样例的大小(行数)以及采样方法(第一条记录、最后一条记录或随机集合)。 DataFrame 的前 5,000 行充当默认示例大小,如以下屏幕截图所示:

显示 Data Wrangler 自定义示例提示的屏幕截图。

查看摘要统计信息

当 Data Wrangler 加载时,它会在 “摘要” 面板中显示所选数据帧的描述性概述。 此概述包括有关 DataFrame 维度、缺失值等的信息。 选择 Data Wrangler 网格中的任何列时, “摘要 ”面板将更新以显示有关该特定列的描述性统计信息。 其标头中还会提供有关每列的快速见解。

提示

列特定的统计信息和可视化(显示在“摘要”面板和列标题中)取决于列的数据类型。 例如,仅当列强制转换为数值类型时,数值列的装箱直方图才会显示在列标头中,如屏幕截图所示:

显示“数据整理器”显示网格和“摘要”面板的屏幕截图。

浏览数据清理操作

操作面板提供可搜索的数据清理操作列表。 从操作面板中选择数据清理操作时,需要提供目标列或列,以及任何完成操作所需的参数。 例如,提示以数字方式缩放列需要新的值范围,如以下屏幕截图所示:

显示“数据整理器操作”面板的屏幕截图。

提示

可从每个列标题的菜单中应用较小的操作选择,如以下屏幕截图所示:

显示可从列标题菜单应用的数据整理器操作的屏幕截图。

预览和应用操作

所选操作的结果会自动在数据整理器显示网格中预览,并且相应的代码会自动出现在网格下方的面板中。 若要提交预览的代码,请选择“在任一位置 应用 ”。 若要删除预览的代码并尝试新操作,请选择“放弃”,如下截图所示:

显示数据整理器操作正在进行的屏幕截图。

应用某个操作后,Data Wrangler 显示网格和摘要统计信息都会更新,以便反映结果。 代码显示在清理步骤面板中已提交操作的运行列表中,如以下截图所示:

显示已应用数据整理器操作的屏幕截图。

提示

始终可以撤消最近应用的步骤。 在 “清理步骤 ”面板中,将光标悬停在最近应用的步骤上时,将显示垃圾桶图标,如以下屏幕截图所示:

显示可以撤消的数据整理器操作的屏幕截图。

下表汇总了数据整理器当前支持的操作:

操作 描述
Sort 按升序或降序排序
Filter 根据一个或多个条件筛选行
独热编码 为现有列中每个唯一值创建新列,指示每行是否存在这些值
多标签二值化器 使用分隔符拆分数据并为每个类别创建新列,如果行具有该类别,则标记 1;如果没有,则为 0
更改列类型 更改列的数据类型
删除列 删除一个或多个列
选择列 选择要保留的一个或多个列,然后删除其余列
重命名列 重命名列
删除缺少的值 删除包含缺失值的行
删除重复行 删除一列或多列中具有重复值的所有行
填充缺失值 将缺少值的单元格替换为新值
查找和替换 将单元格替换为完全匹配的模式
按列分组和聚合 按列值分组并聚合结果
剥离空格 删除文本开头和结尾的空格
拆分文本 根据用户定义的分隔符将一列拆分为多个列
将文本转换为小写 将文本转换为小写
将文本转换为大写 将文本转换为大写
缩放最小/最大值 在最小值和最大值之间缩放数字列
快速填充 基于从现有列派生的示例自动创建新列

自定义显示

随时可以使用数据整理器显示网格上方工具栏中的“视图”选项卡自定义界面。 此选项可以根据首选项和屏幕大小隐藏或显示不同的窗格,如以下屏幕截图所示:

显示用于自定义显示视图的数据整理器菜单的屏幕截图。

保存和导出代码

数据整理器显示网格上方的工具栏提供了保存生成的代码的选项。 可以将代码复制到剪贴板,或将其作为函数导出到笔记本。 导出代码会关闭数据整理器并将新函数添加到笔记本中的代码单元格。 还可以将清理的数据帧下载为 CSV 文件。

提示

Data Wrangler 生成的代码仅在您手动运行新单元格时执行,并且不会覆盖原始 DataFrame,如下图所示:

显示数据整理器中的导出代码选项的屏幕截图。

然后可以运行导出的代码,如以下屏幕截图所示:

显示笔记本中返回数据整理器生成的代码的屏幕截图。

后续步骤

了解如何将 Data Wrangler 与 pandas DataFrame 配合使用后,请浏览以下资源:

想提供反馈?Fabric 创意论坛中分享想法。