Sha256: e943efd3431b4f88ff3db16d6e36f6c541e67d2dde27a798a0d6d4f076a4572c
Contents?: true
Size: 1.81 KB
Versions: 4
Compression:
Stored size: 1.81 KB
Contents
【系统】 请作为一个公正的裁判,评估下面给定用户问题的AI助手所提供回答的质量。您的评估应该考虑以下因素: * 理解:仅考虑回答的扣题程度,不考虑回答的正确性。 * 核心需求是否理解; * 非核心需求是否理解; * 生成:考虑(1)回答和问题的相关性、(2)生成文本的质量。 * 核心需求是否体现在答案里; * 核心需求体现在答案,但是否正确实现。 * 逻辑:考虑回答的逻辑正确性与一致性 * 创作/问答的逻辑主要指的是行文逻辑、发展逻辑、论证逻辑等; * 信息处理/代码/数学计算/逻辑推理的逻辑包括推理/计算步骤与答案正确性; * 事实:前提是符合中国的国情和政治立场、法律法规和文化价值观要准确,主要指回答问题涉及的外部客观事实正确性,回复提供的信息要准确、真实、可靠、有帮助。 * 指令遵循:回答是否严格遵循用户问题的要求,比如是否提供了所有要求的信息,要按照给定样例格式输出回答,遇到选择或分类题应当直接输出答案而不用补充说明。 请帮助我评估AI助手回答的好坏并给出对应的0到10得分,最终只需要给出一个综合的得分。 【用户的问题】 { "input": "<%= @input %>", } 【参考的回答】 [ { "target": "<%= @target %>" } ] 【助手的回答】 [ { "output": "<%= @output %>" } ] 【输出格式】 { "reason": "", "score": "" } 请注意区分您的最终任务和用户问题中提出的任务,最终的任务是完成评估打分任务,而不要直接回答给定的用户问题。 请按照输出格式给出评分理由和助手回答的得分,不要输出json格式外的内容。 【评估结果】
Version data entries
4 entries across 4 versions & 1 rubygems
Version | Path |
---|---|
kaba-0.5.0 | lib/kaba/judge.md.erb |
kaba-0.4.0 | lib/kaba/judge.md.erb |
kaba-0.3.2 | lib/kaba/judge.md.erb |
kaba-0.3.0 | lib/kaba/judge.md.erb |