【学习笔记】将来最好用的 LLM 是最懂"角色扮演"的——主 Agent 编排执行 Agent 的多模型协作

2026-06-17 9 min

📌 内容来源：本文整理自 LINUX DO 讨论帖《将来最好用的 LLM 是懂得角色扮演的 LLM》（楼主 xtc0809），原帖链接：https://linux.do/t/topic/1930423。以下为我对讨论内容的归纳与个人理解（学习笔记），非逐字转载，观点归原帖各位佬友。

一个观察：为什么大家偏爱和 Claude 聊天？

楼主从一个问题切入：为什么大家更喜欢和 Claude 聊天而不是 GPT？他的答案只有一个字——「懂」。Claude 更懂你在说什么、想要什么，甚至没说出口的那部分意图。这种「懂」放到开发场景，价值会被放大十倍。

这其实点出了一个常被忽略的评价维度：我们评估一个 LLM 时，往往盯着「写代码能力」「跑分」「上下文窗口」这些硬指标，却容易忽略它有多懂用户。而「懂」恰恰决定了它能不能把模糊的意图，转化成可执行的精确指令。

被验证的工作流：Claude Code 当主 Agent，指挥 Codex

楼主分享了一个他自己用得很顺的工作流：

用 Claude Code 做主 Agent，指挥 Codex 干活。

效果出奇地好——它解决了一个让人头疼很久的问题：Codex 执行任务时经常中断、跑偏、理解错需求。但当 Claude Code 作为中间层介入后，这些问题几乎消失了。

原因在于，Claude Code 更懂用户。给它合适的提示词之后，它几乎「复制出了一个『你』的人格」，然后用你的思维方式去拆解任务、分配给 Codex。于是 Codex 拿到的不再是模糊的用户需求，而是一份经过「翻译」的、具体的任务明细。

楼主后来补充得很直白：

老实说 Claude 的开发能力真的远远不如 Codex，让它写代码我老是想骂人，但是和它聊天真的很舒服，Codex 则是另一个极端。
我特别喜欢 Claude Code 的主动提问，而 Codex 往往就是直接闷头干，最后干出一坨我根本不想要的东西。

这里点破了一个关键事实：没有一个模型是全能的。Claude 的「人味」（共情、主动澄清、理解意图）和 Codex 的「码力」（执行力、写代码）是分布在两个不同模型上的两极优势。

真正的瓶颈是「模糊需求」，不是执行能力

楼主换了个角度反过来论证：如果你本身非常擅长开发、只能用 Codex，能不能把活干好？当然可以。因为你知道怎么把需求拆成明确的任务描述，Codex 拿到这种级别的指令，执行力是很强的。

那问题出在哪？

出在大多数时候，我们的需求本身就是模糊的。我们脑子里有个大概的方向，但还没细化到可以直接交给执行层的程度。

这时候 Codex 就懵了——它是个优秀的执行者，但不是一个好的需求分析师。换句话说，瓶颈不在「执行」，而在「从模糊意图到精确任务」的那一段翻译。

解法：一个能模拟用户思维的中间层

既然翻译这一段是瓶颈，那就需要一个中间角色：一个能模拟用户思维的主 Agent。它能跟你「同频」，理解你真正想要的东西，把模糊需求翻译成精确指令，再交给执行层去跑。Claude Code 恰好能扮演这个角色。

这就是楼主的核心结论：

将来最好用的 LLM，一定是最懂角色扮演的 LLM。

而所谓「角色扮演」，并不是花哨的功能，它的本质是：

共情能力 + 上下文建模

一个能真正「扮演」用户的模型，意味着它能：

理解你没说清楚的部分；
用你的思维方式去拆解问题；
像你一样去指挥其他工具和 Agent。

由此推演出一个干净的三层协作架构：

你——负责方向（决定做什么、要什么）；
主 Agent——负责理解和翻译（把模糊意图变成精确任务，像你一样思考）；
执行 Agent——负责落地（拿到精确任务后高效执行）。

楼主进一步把这个想法延伸到未来的开发范式：

未来的开发范式，可能不是人直接指挥一群 Agent，而是人调教好一个懂自己的主 Agent，让它去指挥其他 Agent。
你要做的，只是找到那个最懂你的。

我的理解与延伸

1. 这本质上是「编排者—执行者」（Orchestrator–Executor）的职责分离。

把「理解意图 + 拆解任务」和「写代码」拆开，分别交给各自擅长的模型。这和人团队里的分工是一致的：产品/技术负责人负责把需求讲清楚，工程师负责实现。模型之间的能力差异，恰好让这种分工成为可能。

2. 「码力」和「人味」不可兼得时，多模型协作是最优解。

跟帖里 HLiny 提到一个很务实的观点：等 Gemini 编程能力上去了，Claude 的位置可能就不稳了；但在「码力」和「人味」不可兼得的时候，多模型协作可能才是最优解（他提到的 CCB / CCG 类工具走的也是这个思路）。这让我更倾向于：与其苦等一个「全能模型」，不如现在就把编排层搭起来，让每个模型各司其职。

3. 「共情 / 人设」仍是难点，靠提示词硬约束不够。

跟帖里 vulgar 的疑问很真实：「共情能力怎么做？给 agent 约束各种提示词，但要达到想要的人设还是很难。」我的体会是，「懂你」不是写几条人设提示词就能得到的，它需要持续的上下文积累——项目记忆、你的偏好、历史决策。这也呼应了另一条思路：用 CLAUDE.md、Skill、记忆文件去「沉淀」这个懂你的主 Agent，而不是每次都从零说服它。

4. 对个人而言，护城河在「调教主 Agent」这件事上。

如果未来真的是「人 → 主 Agent → 一群执行 Agent」，那么执行层的活儿会越来越被自动化。就像跟帖里 840814743 调侃的——「这个岗位上有没有我好像也没差了」。但反过来想，谁更擅长把主 Agent 调教得「懂自己」，谁就更难被替代：因为「方向」「品味」「判断」这些短期内还是人的主场。所以现在值得投入的，是把自己的工作流、偏好、判断标准沉淀成主 Agent 能用的资产。

小结

这篇讨论给我的最大启发，是把「LLM 好不好用」的评价重心，从「码力」往「懂你」挪了一格。一个模型可以代码写得很猛，但如果它不懂你要什么，产出就是一坨你不想要的东西。而解决之道不是去找一个全能模型，而是搭一个三层架构：人来定方向，一个懂你的主 Agent 负责翻译和编排，执行 Agent 负责落地。短期看，把「调教主 Agent」这件事做好，可能比追最新的执行模型更划算。

学习笔记