【学习笔记】Agentic 设计模式(六):附录 A–G 速览——提示工程 / GUI 真实环境 / 框架 / AgentSpace / CLI / 推理引擎 / Coding Agent
整理日期:2026-07-01 涵盖范围:附录 A–G(本书 ~74 页参考资料向内容) 说明:这是 Agentic 设计模式系列总览 的第六篇、也是末篇。附录不是「核心 21 模式」,而是横向参考资料——提示工程方法库、框架选型、CLI/Coding Agent 工具图鉴、推理引擎内幕。本篇采用「速览」形式,每则附录给定位、要点和坑。附录 F 的「模型自述推理」是模型行为模式示例、非内部计算的真实描述,请注意这一警示。内容基于本书英文原书(经
xindoo中文版核实)。标注「(未确认)」处以英文原书为准。
一、核心结论(太长不看)
- 附录是横向参考资料,不是新模式:A 讲方法库(提示工程)、B/C/E/G 讲工具与图鉴(GUI/框架/CLI/Coding Agent)、D 讲无代码平台、F 讲推理内幕。读完能补齐「实战落地」所需的具体手段与选型。
- 附录 A 的要点是「提示即工程」:覆盖零/少样本、结构化输出(JSON + Pydantic)、CoT/自洽/Step-back/ToT、ReAct、APE、persona 等全谱系。⚠️ 一个趋势信号——「context engineering(上下文工程)」正在取代「prompt engineering」成为新术语;结构化输出不是便利而是组件/Agent 间可靠通信的必需。
- 附录 B 把 Agent 环境分两类:Agent-Computer Interface / GUI 自动化(Operator、Mariner、Computer Use、Browser Use)和多模态/具身环境(Astra、Gemini Live、GPT-4o、ChatGPT Agent)。还讲了 vibe coding(Karpathy 推广的高层目标驱动迭代式 AI 编程范式)。⚠️ GUI 自动化对 UI 变化脆(远不如稳定 API)。
- 附录 C 是一份框架选型表:12 个框架的核心权衡是「细粒度图控制(LangGraph)vs 引导式平台简单(CrewAI/ADK)vs 数据中心(LlamaIndex)」。选型看你要简单序列、动态推理循环、还是托管专家团队。
- 附录 E 四大 CLI 各有所长:Claude Code(架构级深度 + MCP 扩展)、Gemini CLI(开源 + 多模态 + 大上下文)、Aider(Git 中心、直接改文件自动提交)、Copilot CLI(GitHub 生态原生)。无单一最优。Terminal-Bench 是评测 CLI Agent 能力的基准。
- 附录 F 的关键警示:本书让 Gemini/ChatGPT/Grok/Kimi/Claude/DeepSeek 自述推理步骤,发现六者收敛到「解构→模式识别检索→选推理法→CoT 模拟思考→构造响应→审查精修」的多阶段框架——这正是 CoT 范式让 LLM 适合当 Agent 计算核心的原因。⚠️ 但这是模型的自述行为示例,不是内部计算的真实描述;LLM 推理是模拟/概率的,貌似合理 ≠ 正确。
- 附录 G 把 Coding Agent 定位成「人主导的专家 Agent 团队」:开发者是架构师/最终裁决者,Agent 是支持协作者。三原则——人主导编排、上下文至上(输入质量决定输出质量)、直连前沿模型。把 vibe coding 当快速原型手段,但稳健可维护的软件要结构化 Agent 团队。
二、附录 A:高级提示技术
定位
一份全面的工程参考,把通用 LLM 变成专门、可靠的工具——把提示当有纪律的工程,而非「随便问问题」。
要点(全谱系)
- 核心原则:清晰具体、简洁、强动词、指令优于约束(正向指令胜过负向约束)、实验迭代。
- 基础:Zero-shot、One-shot、Few-shot。
- 结构化:system prompt、角色提示、分隔符、context engineering、结构化输出(JSON + Pydantic 校验)。
- 推理:CoT、自洽(self-consistency)、Step-back prompting、ToT。
- 行动/交互:Tool use / function calling、ReAct。
- 高级:APE(自动提示工程)、迭代精修、负例、类比、分解、RAG、persona patterns、Google Gems、用 LLM 改进 prompt(元方法)。
- 任务特定:代码提示、多模态提示。
坑
- 过度复杂的 prompt 反而让模型困惑。
- 负向约束可能适得其反。
- ⚠️ 结构化输出(JSON+Pydantic)不是便利而是组件/Agent 间可靠通信的必需。
- few-shot 样本塑造语气/风格,和塑造正确性一样重要。
三、附录 B:从 GUI 到真实环境
定位
调研 Agent 如何与数字界面(Agent-Computer Interface / GUI 自动化)和物理/多模态环境交互,外加 vibe coding 范式。
要点(两个交互域)
① Agent-Computer Interface (ACI) / GUI 自动化:视觉感知(截图)→ GUI 元素识别 → 上下文理解 → 动态执行(鼠标/键盘控制)+ 持续视觉反馈。代表系统:ChatGPT Operator(OpenAI)、Google Project Mariner(Chrome 浏览器 Agent)、Anthropic Computer Use(Claude 靠截图 + 鼠标键盘控制桌面)、Browser Use(开源、DOM 浏览器自动化)。
② Agent-环境(多模态/具身):Google Project Astra(靠摄像头/麦克风看听,实时多模态助手)、Gemini Live(低延迟对话、可打断、摄像头/屏幕/文件输入)、OpenAI GPT-4o(全模态语音/视觉/文本推理、Realtime API)、OpenAI ChatGPT Agent(自治浏览 + 代码执行 + 第三方应用交互,内置授权安全防护)、Microsoft Seeing AI(视障辅助 App)、Anthropic Claude 4(强视觉 + 多步分析)。
Vibe coding:对话式、迭代、高层目标驱动的 AI 编程协作(重意图/「vibe」轻逐步规格);迭代精修;AI 当创意伙伴;可选记忆库。由 GPT-4/Claude/Gemini 在开发环境里促成。
坑
- ⚠️ GUI 自动化对 UI 变化脆(远不如稳定 API)。
- 全模态 Agent 带来新安全/滥用问题(ChatGPT Agent 配系统卡 + 需用户授权某些动作)。
- vibe coding 降低门槛但无结构化跟进时风险低质量/不可维护代码。
四、附录 C:框架概览
定位
一份主要 Agent 构建框架及其权衡的对比调研,指导框架选型。
要点(12 框架)
| 框架 | 定位 | 适合 |
|---|---|---|
| LangChain | LCEL(管道符)做线性/DAG 工作流 | 简单 RAG、摘要、抽取;无循环 |
| LangGraph | 基于 LangChain 的有状态有环图(节点 + 条件边,支持循环/重试/HITL) | 多 Agent、规划 - 执行、HITL |
| Google ADK | 编排有预定角色的 Agent 团队 | 多 Agent + 模型灵活(Gemini Pro/Flash、LiteLLM) |
| CrewAI | 编排有预定角色的 Agent 团队 | 多 Agent 团队 |
| Microsoft AutoGen | 对话驱动的多 Agent 编排 | 灵活但执行路径欠可预测,需复杂 prompt 收敛 |
| LlamaIndex | 数据框架,连接 LLM 到外部/私有数据 | RAG 管线强;复杂 Agent 控制流/多 Agent 弱 |
| Haystack | 可扩展搜索/QA 的模块化管线 | 检索优化;动态 Agent 行为偏僵 |
| MetaGPT | SOP 驱动多 Agent(模拟软件公司 PM/工程师) | 高度结构化输出;专门、欠通用 |
| SuperAGI | 全生命周期管理(监控+GUI+ 循环处理) | 生产向但比轻量库重 |
| Semantic Kernel(MS) | SDK,靠「插件」+「规划器」整合 LLM 与传统代码 | .NET/Python 企业集成强;学习曲线陡 |
| Strands Agents(AWS) | 轻量、模型驱动、模型无关 SDK,原生 MCP | 简单灵活但运维基础设施自建更多 |
核心权衡(本书论点)
细粒度图控制(LangGraph)vs 引导式平台简单(CrewAI/ADK)vs 数据中心(LlamaIndex)。选型取决于你要简单序列、动态推理循环、还是托管专家团队。
五、附录 D:用 AgentSpace 构建 Agent
定位
一份在 Google AgentSpace(「Agent 驱动的企业」平台)上无代码构建 Agent 的实战指南。仅在线提供。
要点
AgentSpace 用 Gemini 对组织数字资产(文档、邮件、DB)做统一搜索,建企业知识图谱(映射人/文档/数据关系),并提供 Agent Designer——一个无代码 UI,可创建连接服务(Calendar、Gmail、Workday、Jira、Outlook、ServiceNow)的 Agent,用自定义或 Google 预置 prompt 库。支持经 A2A 协议的多 Agent 协作。安全靠 RBAC + 加密。经 Google Cloud Console → AI Applications 访问。
坑
- 云平台锁定(Google 生态)。
- 无代码抽象隐藏技术复杂度(控制更少)。
六、附录 E:CLI 上的 AI Agent
定位
调研四大 AI Agent 命令行界面,以及它们如何把终端变成协作工作台。
要点(四 CLI 对比)
| CLI | 亮点 |
|---|---|
| Claude Code(Anthropic) | 资深编程 Agent,对项目架构有深度全局理解;像结对编程的对话;适合大重构/API 集成/文档;深 Git 集成;靠 MCP 扩展(私有 API、DB 查询、脚本的定制工具) |
| Gemini CLI(Google) | 开源、Gemini 2.5 Pro、超大上下文、多模态(图 + 文);开源 + 慷慨免费层;ReAct 循环;内置工具(文件系统、shell、网搜/抓取、记忆);沙箱保安全;MCP 接本地/API;Google Cloud 强 |
| Aider | 开源、模型无关结对程序员;直接改文件 + 每次改动自动提交 Git;TDD 友好(写失败测试→实现→验证);透明可审计;Git 中心 |
| GitHub Copilot CLI | GitHub 生态原生集成;可被指派一个 issue、建分支、写修复、开 PR;仓库感知问答;shell 命令协助(gh? ...) |
Terminal-Bench:测 CLI Agent 熟练度的基准框架(Terminal-Bench-Core-v0 = 80 个人类设计任务;「Terminus」最小 Agent 当标准化测试床);终端是理想的 Agent 文本沙箱环境。
坑
- 无单一最优工具——各有强项:Claude=架构、Gemini=多模态通用、Aider=Git 中心直接、Copilot=GitHub 工作流。
七、附录 F:推理引擎内幕
定位
探索主流 LLM(Agent 的认知核心)的内部推理机制——让每个模型自述其逐步推理过程。
要点(六模型自述 + 收敛框架)
本书向 Gemini、ChatGPT、Grok、Kimi、Claude、DeepSeek 提「逐步解释你怎么推理」并综合其(自述)答案。收敛的多阶段框架:① 解构 prompt(意图、约束);② 靠模式识别(非数据库查询)做信息检索/综合;③ 选推理方法;④ 经 CoT 模拟思考;⑤ 构造响应(格式/语气/指令遵循);⑥ 审查精修。Claude(宪法/分析式)和 DeepSeek(经 <think> token 显式暴露 CoT——可见推理轨迹)有额外细节。
关键洞见(本书结论)
所有主流模型共享一个高度一致的、根植于 CoT 范式的多阶段推理框架。这种系统化处理正是让 LLM 适合当自治 Agent 的中央「计算心智」(规划者/决策者)的原因。提升这种模拟推理的可靠性是更强大、可信 Agent 的关键。
⚠️ 关键警示
这些是模型对自身推理的自述——是行为模式示例,不是内部计算的真实描述。LLM 推理是模拟/概率的,非符号逻辑;貌似合理 ≠ 正确。
八、附录 G:Coding Agent
定位
一个组织「人主导的专家 Coding Agent 团队」的框架——从原始 vibe coding 进化成开发者当编排者/架构师的结构化人机协作。
要点(「增强团队」框架,三原则)
- 人主导编排:开发者是团队负责人/架构师/最终决策者;Agent 是支持协作者;开发者始终持有最终裁决。
- 上下文至上:Agent 输出质量直接镜像输入质量——优先精心的人管上下文(全代码库 + 外部知识 + 人工任务简报),避免自动化黑箱上下文检索。
- 直连模型:Agent 必须由前沿模型(Gemini 2.5 Pro、Claude Opus 4、OpenAI、DeepSeek)驱动,用最干净通道——弱模型或搅浑上下文的中间件会降性能。
专家 Agent 团队(按角色 prompt 调用):Scaffold/Implementation(按规格写代码)、Test Engineer(单测/集成/E2E)、Documenter(API/技术文档)、Optimizer(重构/性能)、Reviewer/Process(既做批评类静态分析,又做元反思——优先级排序、滤琐碎、给可执行摘要)。上下文准备放专门 task-context/ 目录配 01_BRIEF.md。
实施清单:2+ 前沿模型 API key(双厂商对比/韧性)、轻量本地上下文编排器(context.toml)、Git 里版本化的 /prompts prompt 库、Git hook 集成(如 pre-commit 触发 reviewer Agent)。
行业锚点
Sundar Pichai(2025):Google 新代码 >30% 由 Gemini 协助/生成;Satya Nadella:微软约 30% 代码 AI 生成。论点是「增强胜于替代」——人拥有架构/创造性解题;Agent 做专门、可规模化的任务(测试、文档、评审)。Vibe coding 定位为快速构思/原型手段(治空白页瘫痪、探不熟 API),但稳健可维护软件要结构化 Agent 团队。
九、按用途选型决策表
| 你的用途 | 推荐参考 |
|---|---|
| 系统学提示工程方法库 | 附录 A(注意 context engineering 趋势) |
| 要让 Agent 操作浏览器/桌面/多模态 | 附录 B(GUI 自动化 vs 多模态环境) |
| 选 Agent 构建框架 | 附录 C(按「图控制 / 平台简单 / 数据中心」选) |
| 企业内无代码搭 Agent | 附录 D(AgentSpace) |
| 选 CLI 编程 Agent | 附录 E(Claude=架构、Gemini=多模态、Aider=Git、Copilot=GitHub) |
| 理解 LLM 推理机制 | 附录 F(⚠️ 自述行为示例,非内部计算真相) |
| 组织 Coding Agent 团队做生产级开发 | 附录 G(人主导 + 上下文至上 + 直连前沿模型) |
一句话总原则:附录是「实战落地」的工具箱与图鉴——A 给方法、C 给框架、E/G 给工具、B/F 给认知;按你卡在「不会提示 / 不会选框架 / 不会选工具 / 不懂原理」哪一环去取。
十、参考资料
原书与翻译
附录涉及的工具与基准
姊妹篇
- 系列总览:《Agentic Design Patterns 系列总览》
- 上篇:《(五):企业级七模式》
- 全系列:(一)核心组合 · (二)推理四模式 · (三)高级模式 · (四)生产模式 · (五)企业模式 · (六)本文