【学习笔记】将来最好用的 LLM 是最懂"角色扮演"的——主 Agent 编排执行 Agent 的多模型协作
📌 内容来源:本文整理自 LINUX DO 讨论帖《将来最好用的 LLM 是懂得角色扮演的 LLM》(楼主 xtc0809),原帖链接:https://linux.do/t/topic/1930423。以下为我对讨论内容的归纳与个人理解(学习笔记),非逐字转载,观点归原帖各位佬友。
一个观察:为什么大家偏爱和 Claude 聊天?
楼主从一个问题切入:为什么大家更喜欢和 Claude 聊天而不是 GPT?他的答案只有一个字——「懂」。Claude 更懂你在说什么、想要什么,甚至没说出口的那部分意图。这种「懂」放到开发场景,价值会被放大十倍。
这其实点出了一个常被忽略的评价维度:我们评估一个 LLM 时,往往盯着「写代码能力」「跑分」「上下文窗口」这些硬指标,却容易忽略它有多懂用户。而「懂」恰恰决定了它能不能把模糊的意图,转化成可执行的精确指令。
被验证的工作流:Claude Code 当主 Agent,指挥 Codex
楼主分享了一个他自己用得很顺的工作流:
用 Claude Code 做主 Agent,指挥 Codex 干活。
效果出奇地好——它解决了一个让人头疼很久的问题:Codex 执行任务时经常中断、跑偏、理解错需求。但当 Claude Code 作为中间层介入后,这些问题几乎消失了。
原因在于,Claude Code 更懂用户。给它合适的提示词之后,它几乎「复制出了一个『你』的人格」,然后用你的思维方式去拆解任务、分配给 Codex。于是 Codex 拿到的不再是模糊的用户需求,而是一份经过「翻译」的、具体的任务明细。
楼主后来补充得很直白:
老实说 Claude 的开发能力真的远远不如 Codex,让它写代码我老是想骂人,但是和它聊天真的很舒服,Codex 则是另一个极端。
我特别喜欢 Claude Code 的主动提问,而 Codex 往往就是直接闷头干,最后干出一坨我根本不想要的东西。
这里点破了一个关键事实:没有一个模型是全能的。Claude 的「人味」(共情、主动澄清、理解意图)和 Codex 的「码力」(执行力、写代码)是分布在两个不同模型上的两极优势。
真正的瓶颈是「模糊需求」,不是执行能力
楼主换了个角度反过来论证:如果你本身非常擅长开发、只能用 Codex,能不能把活干好?当然可以。因为你知道怎么把需求拆成明确的任务描述,Codex 拿到这种级别的指令,执行力是很强的。
那问题出在哪?
出在大多数时候,我们的需求本身就是模糊的。我们脑子里有个大概的方向,但还没细化到可以直接交给执行层的程度。
这时候 Codex 就懵了——它是个优秀的执行者,但不是一个好的需求分析师。换句话说,瓶颈不在「执行」,而在「从模糊意图到精确任务」的那一段翻译。
解法:一个能模拟用户思维的中间层
既然翻译这一段是瓶颈,那就需要一个中间角色:一个能模拟用户思维的主 Agent。它能跟你「同频」,理解你真正想要的东西,把模糊需求翻译成精确指令,再交给执行层去跑。Claude Code 恰好能扮演这个角色。
这就是楼主的核心结论:
将来最好用的 LLM,一定是最懂角色扮演的 LLM。
而所谓「角色扮演」,并不是花哨的功能,它的本质是:
共情能力 + 上下文建模
一个能真正「扮演」用户的模型,意味着它能:
- 理解你没说清楚的部分;
- 用你的思维方式去拆解问题;
- 像你一样去指挥其他工具和 Agent。
由此推演出一个干净的三层协作架构:
- 你——负责方向(决定做什么、要什么);
- 主 Agent——负责理解和翻译(把模糊意图变成精确任务,像你一样思考);
- 执行 Agent——负责落地(拿到精确任务后高效执行)。
楼主进一步把这个想法延伸到未来的开发范式:
未来的开发范式,可能不是人直接指挥一群 Agent,而是人调教好一个懂自己的主 Agent,让它去指挥其他 Agent。
你要做的,只是找到那个最懂你的。
我的理解与延伸
1. 这本质上是「编排者—执行者」(Orchestrator–Executor)的职责分离。
把「理解意图 + 拆解任务」和「写代码」拆开,分别交给各自擅长的模型。这和人团队里的分工是一致的:产品/技术负责人负责把需求讲清楚,工程师负责实现。模型之间的能力差异,恰好让这种分工成为可能。
2. 「码力」和「人味」不可兼得时,多模型协作是最优解。
跟帖里 HLiny 提到一个很务实的观点:等 Gemini 编程能力上去了,Claude 的位置可能就不稳了;但在「码力」和「人味」不可兼得的时候,多模型协作可能才是最优解(他提到的 CCB / CCG 类工具走的也是这个思路)。这让我更倾向于:与其苦等一个「全能模型」,不如现在就把编排层搭起来,让每个模型各司其职。
3. 「共情 / 人设」仍是难点,靠提示词硬约束不够。
跟帖里 vulgar 的疑问很真实:「共情能力怎么做?给 agent 约束各种提示词,但要达到想要的人设还是很难。」我的体会是,「懂你」不是写几条人设提示词就能得到的,它需要持续的上下文积累——项目记忆、你的偏好、历史决策。这也呼应了另一条思路:用 CLAUDE.md、Skill、记忆文件去「沉淀」这个懂你的主 Agent,而不是每次都从零说服它。
4. 对个人而言,护城河在「调教主 Agent」这件事上。
如果未来真的是「人 → 主 Agent → 一群执行 Agent」,那么执行层的活儿会越来越被自动化。就像跟帖里 840814743 调侃的——「这个岗位上有没有我好像也没差了」。但反过来想,谁更擅长把主 Agent 调教得「懂自己」,谁就更难被替代:因为「方向」「品味」「判断」这些短期内还是人的主场。所以现在值得投入的,是把自己的工作流、偏好、判断标准沉淀成主 Agent 能用的资产。
小结
这篇讨论给我的最大启发,是把「LLM 好不好用」的评价重心,从「码力」往「懂你」挪了一格。一个模型可以代码写得很猛,但如果它不懂你要什么,产出就是一坨你不想要的东西。而解决之道不是去找一个全能模型,而是搭一个三层架构:人来定方向,一个懂你的主 Agent 负责翻译和编排,执行 Agent 负责落地。短期看,把「调教主 Agent」这件事做好,可能比追最新的执行模型更划算。