根据Prompt判断用户明确要什么

一、第一张图：作答维度

这张表格定义了评估一个模型回复时，需要从哪几个方面去分析，以及每个方面具体看什么。

| 作答维度 | 详细需求 |

| 需求理解 | 判断模型是否准确理解了用户问题的真实意图。<br举例：用户问“邓超” → ① 判定是指明星邓超，而不是同名其他人；② 明确要回复哪些内容才能满足基本需求（如明星的基础信息、演艺经历、代表作等）。 |
| 真实性判断 | 检查模型回复中是否有事实错误。如果有错，必须指出错误内容，并给出正确的信息+可靠信源（如百度百科）。<br举例：“邓超生日日期有误，正确是XXXX年XX月XX日，来源：百度百科链接”。 |
| 理想回复 | 并不是要写出完整答案，而是说明在当前模型回复的基础上还可以补充什么信息、优化什么格式，让回复更丰富、更易读、重点更突出。<br例如：可以增加作品表格、按时间线排列经历、添加获奖列表等。 |

总结：
- 需求理解 → 方向对不对
- 真实性判断 → 信息准不准
- 理想回复 → 还能怎样更好（不是重写，而是提优化建议）

二、第二张图：试标说明

这张图给出了具体打分的方法和规则，用来对模型回复进行定量评价。

1. 评估分档（0-4分）

| 分数 | 含义 | 简要解释 |
|||-|
| 0分 | 完全没用 | 回复与问题无关，或者完全没有提供任何有价值信息。 |
| 1分 | 只有一点用 | 回复中有极少信息勉强沾边，但整体没用。 |
| 2分 | 部分可用 | 回复里有一部分内容可以采纳，但还有明显缺陷或缺失。 |
| 3分 | 整体基本可用 | 整体满足需求，没有大错，但离“好用”还有差距（如不够丰富、格式不佳等）。 |
| 4分 | 好用 | 完全满足用户需求，信息准确、组织清晰、细节到位，使用体验好。 |

2. 打分类型

要求评估者注明该回复所基于的内容形式：
- 仅图片：回复只有图片（如生成了一张图）。
- 仅视频：回复只有视频。
- 纯文本：回复只有文字。

这个分类用于区分不同模态的回复，方便后续统计或模型优化。

3. 备注格式参考

当给出的分数不是满分（或存在明显问题时），需要填写备注。推荐格式如下：

整体评价：
问题说明：
问题1：xxx
问题2：xxx
问题3：xxx

- 整体评价：用一两句话概括回复的主要优缺点。
- 问题说明：分条列出具体问题（可对应上面的“真实性判断”“需求理解不足”“格式混乱”等）。

三、这两张图如何一起使用？

在实际的模型评估任务中，流程通常是：

1. 拿到一个用户问题（例如“邓超是谁？”）和模型生成的回复。
2. 按第一张图的三个维度进行分析：
- 模型有没有理解用户要的是明星邓超？
- 模型回复里的信息（生日、作品等）是否真实？如果有错，记下来并给出正确信息+信源。
- 模型回复还可以怎样优化（比如加表格、补充近期作品、整理时间线）？
3. 根据分析结果，对照第二张图的0-4分档打分。
- 如果模型完全答非所问 → 0分。
- 如果答了一点点相关但几乎没用 → 1分。
- 如果部分信息可用但漏了很多 → 2分。
- 如果整体能解决问题但不够好 → 3分。
- 如果完美满足、信息准确、组织优秀 → 4分。
4. 填写备注（尤其是非4分时），按格式列出问题。

转载自CSDN-专业IT技术社区

原文链接：https://blog.csdn.net/2302_76384361/article/details/161797904

根据Prompt判断用户明确要什么

评论

评论列表

微信小程序

QQ小程序

关于作者