此浏览器不再受支持。
请升级到 Microsoft Edge 以使用最新的功能、安全更新和技术支持。
可以使用哪种评估技术对一组特定提示的响应质量应用自己的判断?
模型基准
手动评估
自动评估
哪个评估程序根据标准指标将生成的响应与基本事实进行比较?
一致性
F1 分数
受保护的材料
哪个评估程序指标使用 AI 模型来判断响应中想法的结构和逻辑流?
在检查工作前,必须回答所有问题。
此页面是否有帮助?
需要有关本主题的帮助?
想要尝试使用 Ask Learn 阐明或指导你完成本主题?