一、第一张图:作答维度
这张表格定义了评估一个模型回复时,需要从哪几个方面去分析,以及每个方面具体看什么。
| 作答维度 | 详细需求 |
| 需求理解 | 判断模型是否准确理解了用户问题的真实意图。<br举例:用户问“邓超” → ① 判定是指明星邓超,而不是同名其他人;② 明确要回复哪些内容才能满足基本需求(如明星的基础信息、演艺经历、代表作等)。 |
| 真实性判断 | 检查模型回复中是否有事实错误。如果有错,必须指出错误内容,并给出正确的信息+可靠信源(如百度百科)。<br举例:“邓超生日日期有误,正确是XXXX年XX月XX日,来源:百度百科链接”。 |
| 理想回复 | 并不是要写出完整答案,而是说明在当前模型回复的基础上还可以补充什么信息、优化什么格式,让回复更丰富、更易读、重点更突出。<br例如:可以增加作品表格、按时间线排列经历、添加获奖列表等。 |
总结:
- 需求理解 → 方向对不对
- 真实性判断 → 信息准不准
- 理想回复 → 还能怎样更好(不是重写,而是提优化建议)
二、第二张图:试标说明
这张图给出了具体打分的方法和规则,用来对模型回复进行定量评价。
1. 评估分档(0-4分)
| 分数 | 含义 | 简要解释 |
|||-|
| 0分 | 完全没用 | 回复与问题无关,或者完全没有提供任何有价值信息。 |
| 1分 | 只有一点用 | 回复中有极少信息勉强沾边,但整体没用。 |
| 2分 | 部分可用 | 回复里有一部分内容可以采纳,但还有明显缺陷或缺失。 |
| 3分 | 整体基本可用 | 整体满足需求,没有大错,但离“好用”还有差距(如不够丰富、格式不佳等)。 |
| 4分 | 好用 | 完全满足用户需求,信息准确、组织清晰、细节到位,使用体验好。 |
2. 打分类型
要求评估者注明该回复所基于的内容形式:
- 仅图片:回复只有图片(如生成了一张图)。
- 仅视频:回复只有视频。
- 纯文本:回复只有文字。
这个分类用于区分不同模态的回复,方便后续统计或模型优化。
3. 备注格式参考
当给出的分数不是满分(或存在明显问题时),需要填写备注。推荐格式如下:
整体评价:
问题说明:
问题1:xxx
问题2:xxx
问题3:xxx
- 整体评价:用一两句话概括回复的主要优缺点。
- 问题说明:分条列出具体问题(可对应上面的“真实性判断”“需求理解不足”“格式混乱”等)。
三、这两张图如何一起使用?
在实际的模型评估任务中,流程通常是:
1. 拿到一个用户问题(例如“邓超是谁?”)和模型生成的回复。
2. 按第一张图的三个维度进行分析:
- 模型有没有理解用户要的是明星邓超?
- 模型回复里的信息(生日、作品等)是否真实?如果有错,记下来并给出正确信息+信源。
- 模型回复还可以怎样优化(比如加表格、补充近期作品、整理时间线)?
3. 根据分析结果,对照第二张图的0-4分档打分。
- 如果模型完全答非所问 → 0分。
- 如果答了一点点相关但几乎没用 → 1分。
- 如果部分信息可用但漏了很多 → 2分。
- 如果整体能解决问题但不够好 → 3分。
- 如果完美满足、信息准确、组织优秀 → 4分。
4. 填写备注(尤其是非4分时),按格式列出问题。
转载自CSDN-专业IT技术社区
原文链接:https://blog.csdn.net/2302_76384361/article/details/161797904



