在 Genie 空间中使用基准

本页介绍如何使用基准来评估 Genie 空间的准确性。

概述

通过基准测试,可以创建一系列测试问题,你可以运行这些问题来评估 Genie 的整体响应准确性。 一组设计合理的基准,涵盖最常见的用户问题,有助于在优化 Genie 空间时评估其准确度。 每个 Genie 空间最多可以包含 500 个基准问题。

基准问题以新对话的形式运行。 这些对话不包含与线程 Genie 对话相同的上下文。 每个问题都作为新查询进行处理,使用空间中定义的指令,包括任何提供的示例 SQL 和 SQL 函数。

针对 9 个问题报告的准确率的基准示例。

添加基准问题

基准问题应反映用户所提出常见问题的不同措辞方式。 可以使用它们来检查 Genie 对问题措辞或不同问题格式变体的响应。

创建基准问题时,可以有选择地包含结果集为正确答案的 SQL 查询。 在基准运行过程中,可以通过将 SQL 查询的结果集与 Genie 生成的结果集进行比较,来评估准确度。 还可以将 Unity 目录 SQL 函数用作基准的黄金标准答案。

添加基准问题:

  1. 在 Genie 空间顶部附近,单击“基准”。

  2. 单击“ 添加基准”。

  3. “问题”字段中,输入要测试的基准问题。

  4. (可选)提供回答问题的 SQL 查询。 可以通过键入 SQL 应答 文本字段(包括 Unity 目录 SQL 函数)来编写自己的查询。 或者,单击“ 生成 SQL ”,让 Genie 为你编写 SQL 查询。 使用准确回答所输入问题的 SQL 语句。

    注意

    我们建议你执行此步骤。 只有包含此示例 SQL 语句的问题才能自动评估准确度。 不包含 SQL 答案的任何问题都需要手动评审才能评分。 如果使用 “生成 SQL ”按钮,请查看该语句以确保它准确回答问题。

  5. (可选)单击“ 运行” 以运行查询并查看结果。

  6. 完成编辑后,单击“ 添加基准”。

  7. 若要在保存后更新问题,请单击 “编辑”图标 铅笔图标以打开“更新问题”对话框。

使用基准来测试替代问题措辞

评估 Genie 空间的准确性时,务必构建测试以反映真实场景。 用户可能以不同的方式提出相同的问题。 Databricks 建议添加同一问题的多个措辞,并在基准测试中使用同一示例 SQL 来全面评估准确度。 大多数 Genie 界面应包括同一问题的两到四个版本。

运行基准问题

在 Genie 空间中具有至少 CAN EDIT 权限的用户可以随时运行基准评估。 可以运行所有基准问题,或选择要测试的问题子集。

对于每个问题,Genie 将解释输入、生成 SQL 并返回结果。 然后,生成的 SQL 和结果与基准问题中定义的 SQL 答案 进行比较。

若要运行所有基准问题,请执行以下操作:

  1. 在 Genie 空间顶部附近,单击“基准”。
  2. 单击“运行基准”开始测试运行。

运行基准问题的子集:

  1. 在 Genie 空间顶部附近,单击“基准”。
  2. 选中要测试的问题旁边的复选框。
  3. 单击 “运行选定问题” 以在所选问题上启动测试运行。

还可以从以前的基准结果中选择一部分问题,然后重新运行这些特定问题以测试改进。

在离开页面时,基准测试会继续运行。 运行完成后,可以在“ 评估 ”选项卡上检查结果。

解释分级

以下条件确定 Genie 响应的分级方式:

Condition Rating
Genie 生成与提供的 SQL 答案完全匹配的 SQL
Genie 生成一个结果集,该结果集与 SQL 答案生成的结果集完全匹配
Genie 生成的结果集,其数据与 SQL 答案 相同,但排序方式不同
Genie 生成一个结果集,其数值舍入为与 SQL 答案相同的 4 个有效数字
Genie 生成生成空结果集或返回错误的 SQL 糟糕
Genie 会生成一个结果集,其中包含与 SQL 答案生成的结果集相比的额外列 糟糕
Genie 生成与 SQL 答案生成的单个单元格结果不同的单个单元格结果 糟糕

需要手动评审:当 Genie 无法评估正确性或 Genie 生成的查询结果不包含与提供的 SQL 答案的结果完全匹配时,响应将标有此标签。 任何不包含 SQL 答案的基准问题必须进行人工审阅。

访问基准评估

你可以访问所有的基准评估,以监控 Genie 空间随时间推移的准确度。 打开空间的 基准测试时,评估运行的时间戳列表将显示在“ 评估 ”选项卡中。如果未找到评估运行,请参阅 添加基准问题运行基准问题

评估屏幕,如以下文本中所述。

评估”选项卡显示评估的概览及其在以下类别中报告的表现:

评估名称:一个时间戳,指示何时发生评估运行。 单击该时间戳可查看此评估的详细信息。 执行状态:指示评估是否已完成、暂停或失败。 如果评估运行包含没有预定义 SQL 答案的基准问题,则在此列中加上审阅标记。 准确度:对所有基准问题的准确度进行数值评估。 对于需要手动审阅的评估运行,仅在审阅这些问题之后,才会显示准确度度量值。 创建者:指示运行评估的用户的名称。

查看单个评估

可以查看各个评估,以便详细查看每项响应。 可以编辑任何问题的评估,并更新需要人工审阅的所有项目。

如要审阅各个评估,请采取以下方法:

  1. 在 Genie 空间顶部附近,单击“基准”。

  2. 单击“评估名称”列中任何评估的时间戳,以打开该测试运行的详细视图。

    显示单个评估运行的结果的屏幕。所有问题都列在左侧。如果适用,则在右侧显示各个问题,另外还显示模型输出和基本事实输出。

  3. 使用屏幕左侧的问题列表查看每个问题的详细视图。

  4. 查看模型输出响应,并将其与基本事实响应进行比较。

    对于被评为不正确的结果,会出现一个说明,说明结果为何被评为 “错误”。 这有助于了解生成的输出与预期真实情况之间的特定差异。

    注意

    这些响应的结果会在评估详细信息中显示一周。 一周后,结果不再可见。 生成的 SQL 语句和示例 SQL 语句保持不变。

  5. 单击“ 更新地面真相 ”,将响应保存为此问题的新 地面真相 。 如果不存在真实数据,或者响应比现有的真实数据更好或更准确,则此功能非常有用。

  6. 单击标签上的 “编辑”图标 以编辑评估。

    将每个结果标记为“良好”“不佳”,以获取此评估的准确分数。