【Agent】Building more effective AI agents - 2025-M10
封面
- 标题:Building more effective AI agents
- 链接:https://www.youtube.com/watch?v=uhJJgc-0iTQ
- 发布日期:2025-10-17
- 总字数:1031
- 预估阅读时长:约 4 分钟
- 生成时间:2025-11-02 16:26:15
- 覆盖时长:00:03:09
- 识别说话人:A, B, C
摘要
- Eric强调:multi-agent 作为 test time compute 能显著提升答案质量,多个 Claude 协作往往优于单一实例。
- 团队通过开放式任务与大量 RL 训练,让 Claude“练习做 agent”,不仅在 coding 强,还能把能力外溢到 search、规划等广泛场景;“先在最难的 coding 上练到极致,其他任务就会变得更容易。”
- 实践表明:用代码去生成 artifact(如 SVG、excel sheet)通常比直接产出更高效且可控;Claude.ai 已支持通过写脚本在本地/云端生成真实文件,这预示了“会行动的 agent”的产品方向。
全文
multi-agent 作为 test time compute 的潜力(00:00:00 - 00:00:13)
Eric:我觉得把 multi-agent 当成一种 test time compute 有很多值得探索的地方。简单说,让多个 Claude 协作解决同一个问题,往往能得到比单个 Claude 更好的最终答案。多个实例的思维多样性与并行搜索,能当作“测试时的额外算力”来用。
嘉宾介绍与话题开场(00:00:18 - 00:00:32)
Alex:嗨,我是 Alex,在 Anthropic 负责 cloud relations(原文如是)。今天我们聊“如何打造更有效的 agent”。我请到我的同事。
Eric:我是 Eric,我在 Anthropic 做 multi-agent 研究。
Alex:先抛个总问:为什么 Claude 在 agent 任务上特别强?
训练方式:让 Claude 在开放式任务中“练习做 agent”(00:00:33 - 00:00:52)
Eric:我们在训练时就让 Claude 反复“练习做 agent”。我们给它开放式的问题,让它可以分多步行动、用工具、探索上下文与目标,再给出最终答案。通过大量这样的练习,Claude 在 agent 型任务上就会变得很强。
RL 与多场景练习:在 coding、search 等环境中强化(00:00:52 - 00:01:16)
Alex:也就是说,这些是长流程、跨领域的任务,通过 RL 等训练机制,Claude 在缺少明确逐步指导时也能自己摸索出“该怎么做”的目标与策略?
Eric:没错。我们在 coding 任务、search 任务等上做了大量 RL,让 Claude 在不同环境里都能练习“当一个 agent”。
关于“只擅长 code”的看法(00:01:16 - 00:01:25)
Alex:外界常说 Claude 在 code 上很强,但未必能迁移到别的领域;或者 coding 是个相对独立的能力。你怎么看?
coding 的“溢出效应”:先练最难,其它变容易(00:01:26 - 00:01:57)
Eric:coding 是我们首先聚焦的任务。但当你拥有一个很强的 coding agent,它就能做很多别的工作:要做 search,可以通过 APIs 做 web search;要规划周末行程,就能生成可执行的日程表。我们认为 coding 是 agent 的非常基础且通用的核心技能,“先训练最难的事,其他就会变简单”,会产生很强的溢出效应,让 Claude 在各种任务上受益。
Claude.ai 新特性与未来:写脚本直接产出文件(00:01:57 - 00:02:25)
Alex:我们最近在 Claude.ai(Web)上线了一个能力:Claude 通过写代码来创建真实文件。比如它写了一个 Python 脚本,运行后就生成了一张 excel sheet。你觉得这是不是未来的方向——Claude 写脚本、在电脑上采取行动,来创建文件或完成传统上不被视为“写代码”的任务?
用代码生成 artifact 往往优于直接产出(00:02:26 - 00:03:09)
Eric:我觉得这是非常有效的路径。前几天 Claude 帮我做演示用的图,它能直接写出 SVG 文件。但当我想要一个更复杂、需要大量重复与引用的图时,Claude 改为先写代码来生成 SVG,运行速度比直接让 Claude 逐字输出那个高度重复的图快得多。在许多场景里,用代码去生成 artifact 比“直接生成成品”更好,尤其是复杂、重复度高的难例。这是应对更难任务的一条有效方法。Alex:对,code 提供了一种……(未完)
欢迎交流与合作
目前主要兴趣是探索agent的真正落地,想进一步交流可加微信(微信号:cleezhang),一些自我介绍。