格言书丨Mottobook

在喧嚣中，听见智慧的低语。名人名言，经典语录，深度好文，哲理故事，寓言，格言，箴言，座右铭精选，文字的光辉，犹如黑夜的明星，海上的灯塔，指引前行的方向，在潜移默化中打开格局，提升自我，成就人生！

Do More Agents Help? Controlled and Protocol-Aligned Evaluation of LLM Agent Workflows

2026年6月6日 1ove Agent

浏览： 13

关键维度	单智能体 (Single-Agent)	传统多智能体 (Fixed/Evolving MAS)	运行时生成工作流 (Runtime-Generated)
性价比	⭐⭐⭐⭐⭐ (最高)	⭐⭐ (通常更贵更慢)	⭐⭐⭐⭐ (复杂任务中表现极佳)
准确率	基准线 (74.12%)	大多低于或持平	碾压级 (GAIA任务+20分)
适用场景	大多数通用任务	特定可验证任务 (如数学/代码)	极其复杂的长链条工具使用
主要缺点	面对超难任务可能力不从心	协作成本高，容易丢失信息	技术门槛高，难以复现

1. 核心发现：人多不一定好办事 ❌

研究团队开发了一个名为 BenchAgent 的评估框架，旨在在完全公平的环境下（相同的模型、工具、评测标准）对比不同的智能体架构。

普遍的误区被打破：在涵盖推理、编程和工具使用的10个基准测试中，绝大多数多智能体系统（包括固定分工的AutoGen、CAMEL，以及能进化的EvoAgent）并没有展现出明显优势。
成本与性能的权衡：很多多智能体系统虽然准确率差不多，但花费的计算成本 (Token) 和时间却显著增加。例如，ChatEval 的准确率并未领先，但其Token消耗却是其他系统的数倍。
唯一的“险胜”：只有一个名为 EvoAgent 的系统略微超过了单智能体（+1.44分），但这个差距在统计学的误差范围内，不能算作稳赢。

2. 什么时候“人多”才管用？🤔

研究发现，多智能体系统只有在特定的任务类型下才有优势，这取决于“任务的错误模式”：

辩论模式 (LLM-Debate) 有效：在数学题 (MATH) 和代码生成 (HumanEval) 上，因为答案容易被验证，通过多个AI辩论筛选，确实能提升效果。
进化模式 (EvoAgent) 有效：在需要不同推理方式的任务 (BBH) 上，通过进化寻找更好的提示词是有帮助的。
大多数情况无效：在需要严格遵循指令或精细控制证据的任务中，多智能体之间的“交接”反而会导致上下文信息丢失，导致表现变差。

3. 真正的王者：运行时生成工作流 (Claude Code) 🏆

论文中特别提到了一种更高级的架构——运行时生成工作流（以 Claude Code 为例，即Claude的代码解释器功能）。

在复杂任务中碾压对手：在极其复杂的 GAIA 基准测试（涉及长链条工具使用、文件处理）中，Claude Code 的整体准确率达到 66.72%，比最强的非Claude系统高出 20多个百分点。
为什么它这么强？
- 动态分派：它不是死板地预设几个角色，而是根据任务实时创建子智能体。
- 状态保留：它能像传纸条一样，在不同步骤间保留和传递证据文件。
- 验证关卡：它有专门的“检查员”角色，在最后提交答案前进行格式和逻辑的把关。

💡 总结与建议

这篇论文给业界泼了一盆冷水：不要盲目迷信“多智能体”架构。

对于大多数应用：一个强大的单智能体可能是性价比最高的选择。
对于特定难题：如果你的任务是数学证明或代码生成，可以尝试辩论模式。
对于超级复杂任务：只有像 Claude Code 那样具备动态生成、状态管理和验证机制的高级工作流，才能真正解决极其复杂的现实问题。

You may also like...

发表回复取消回复

要发表评论，您必须先登录。