论文笔记:ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

ICLR 2024 最终评分 55666

1 背景

  • 文本评估通常需要大量的人力和时间成本
    • 随着LLM的出现,研究人员探索了LLMs作为人工评估替代方案的潜力
    • 基于单一代理的方法表现出潜力,但实验结果表明需要进一步的进展来弥合它们当前的有效性和人类级别的评估质量之间的差距
  • ——>论文采用了多agent辩论框架
    • 利用它们各自的能力和专业知识来提高处理复杂任务的效率和效果
    • 构建了一个名为ChatEval的多agent裁判团队,允许每个agent使用不同的沟通策略进行协作讨论,以制定最终判断
    • 为了丰富评估动态,ChatEval中的每个代理都赋予了独特的个性(persona)
      • ——>确保每个代理专注于不同的视角或带来特定的专业知识。
      • ——>通过这样做,集体评估从更全面的视角受益,捕捉单一视角可能忽略的细微差别

2 方法

  • 将每个LLM视为一个agent,并要求它们从给定的prompt中生成response。
  • 来自其他agent的response作为聊天历史记录,填入prompt template。

2.1 举例

2.2 沟通策略

2.1.1 One-By-One

  • 在每一轮的辩论中,agents轮流按照固定的顺序根据当前的观察产生他们的response。
  • 当一个agent响应时,直接将之前其他agent所说的内容连接到它的聊天历史中。

2.1.2 Simultaneous-Talk

同时说话,即提示agent在每次讨论迭代中异步生成响应,以消除说话顺序的影响

2.1.3 Simultaneous-Talk-with-Summarizer

  • 使用了另一个LLM作为总结器。
  • 在辩论的每次迭代结束时,提示这个额外的LLM总结迄今为止所传达的信息,并将这个摘要送到所有辩手代理的聊天历史中。

3 实验

3.1 效果

3.2 ablation study

相关推荐

  1. 论文阅读笔记】清单

    2024-04-01 14:36:03       54 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-01 14:36:03       5 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-01 14:36:03       5 阅读
  3. 在Django里面运行非项目文件

    2024-04-01 14:36:03       4 阅读
  4. Python语言-面向对象

    2024-04-01 14:36:03       5 阅读

热门阅读

  1. 修改aws账户的密码和MFA

    2024-04-01 14:36:03       21 阅读
  2. 【力扣】374.猜数字大小

    2024-04-01 14:36:03       22 阅读
  3. RuoYi-Vue-Plus(登录流程)

    2024-04-01 14:36:03       22 阅读
  4. css去除滑动框

    2024-04-01 14:36:03       22 阅读
  5. pgsql已有表设置主键自增

    2024-04-01 14:36:03       22 阅读
  6. C语言点h文件设置

    2024-04-01 14:36:03       25 阅读
  7. C++常见算法有哪些

    2024-04-01 14:36:03       23 阅读
  8. 东北大学软件学院计算机网络专业课-第一章总结

    2024-04-01 14:36:03       22 阅读
  9. 3月份 月总结

    2024-04-01 14:36:03       23 阅读