【学习笔记】Agentic 设计模式（五）：企业级七模式——A2A / 资源优化 / 推理 / 护栏 / 评测 / 优先级 / 探索

2026-07-01 22 min

整理日期：2026-07-01 涵盖范围：A2A、Resource-Aware Optimization、Reasoning Techniques、Guardrails/Safety、Evaluation & Monitoring、Prioritization、Exploration & Discovery（本书 Part Four Ch 15–21，共 7 模式）说明：这是 Agentic 设计模式系列总览的第五篇分篇，也是覆盖章节最多的一篇。这一层是「规模化、安全与运维」——当 Agent 系统要跨框架协作、控制成本、强化推理、保证安全、持续度量、智能调度、自主探索时，就用这七个模式。内容基于本书英文原书（经 xindoo 中文版核实），A2A/MCP/Guardrails 部分对照官方文档与开源项目。标注「（未确认）」处以英文原书为准。

一、核心结论（太长不看）

这一层七模式是「企业规模化」的完整运维栈：A2A（跨框架协作）、Resource Optimization（控成本）、Reasoning（强化推理）、Guardrails（保安全）、Evaluation（持续度量）、Prioritization（智能调度）、Exploration（自主探索）。
A2A vs MCP 是本层最重要的协议区分：MCP（Anthropic）= Agent↔工具/上下文；A2A（Google）= Agent↔Agent。二者互补不竞争，都用 JSON-RPC 2.0。A2A 用 Agent Card（/.well-known/agent.json）做发现、用异步 Task 状态机管协作、支持 SSE 流/webhook 推送/mTLS 安全。
Resource-Aware Optimization 的核心是「按复杂度动态选模型」：路由 Agent 把简单请求送便宜模型（Gemini Flash）、复杂的送强模型（Gemini Pro），critic Agent 反馈改进路由。OpenRouter 的 openrouter/auto（自动选模型）和有序 fallback 是现成实现。⚠️ 质量/成本权衡是固有的。
Reasoning Techniques 是个密集章节，覆盖 CoT、ToT、自我纠错、PALMs（生成并执行代码）、RLVR（带可验证奖励的 RL，训练推理模型）、ReAct（Think→Act→Observe 循环，Agent 操作循环的核心）、Chain/Graph of Debates、Deep Research。底层原则是「推理扩展定律」——给小模型更多「思考预算」能超过用简单生成的大模型。
Guardrails 不是「限制能力」而是「引导行为」：输入校验/输出过滤/行为约束/工具限制/审核 API/HITL 多层防御。⚠️ 2025 研究（arXiv
.11168）证实坚定攻击者能绕过护栏检测——所以必须纵深防御，单层不够。NVIDIA NeMo Guardrails 是标杆开源库。
Evaluation 的核心洞见是「传统测试对概率性 Agent 不够」：要评轨迹（Agent 走的步骤序列）而非只看最终输出；LLM-as-a-Judge 评主观质量；本书还提出**「高级承包商」模型**（形式化契约 + 动态协商 + 自我验证 + 层级分解）作为生产可靠性的范式。
Prioritization 四要素（紧急/重要/依赖/成本）+ 多层级（目标/子任务/即时动作）+ 动态重排。⚠️ 过度重排会 thrashing（不停重规划不前进）；过度重紧急会饿死重要不紧急任务。
Exploration 用两个真实系统当样板：Google AI Co-Scientist（Gemini 多 Agent 科研协作，含生成/反思/排名/演化/邻近/元评审六类 Agent，已在药物重定位上获体外验证）和 Agent Laboratory（MIT 许可，按学术角色分层）。共同强调增强而非自动化（scientist-in-the-loop），受限于开放文献与负结果缺失，且要防危险研究（Co-Scientist 对 1200 个对抗研究目标做筛查）。

来源：xindoo 中文版 Ch15–21 · Google A2A 协议 · NVIDIA NeMo Guardrails

二、贯穿 Part Four 的一条主线

读这七个模式时，要抓住一条贯穿的张力——「推理质量 vs 成本延迟」：

想要更强推理（Reasoning Techniques, Ch17）→ 但推理算力更贵更慢（Resource-Aware Optimization, Ch16 要管这个）→ 所以必须评测监控（Evaluation, Ch19）来判断质量是否值这个成本。
同时，规模化和强能力带来更大风险 → 要护栏（Guardrails, Ch18）；任务一多就要排序（Prioritization, Ch20）；要跨框架协作就要A2A（Ch15）；要发现未知就要探索（Exploration, Ch21）。

这条主线能帮你把这七个看似分散的模式串成一个连贯的「企业运维」故事。

来源：xindoo 中文版 Part Four

三、A2A：Agent 间通信标准

3.1 定义与机制

定义：一个开放的、基于 HTTP 的协议（Google 的 Agent2Agent），让不同框架构建的 AI Agent 能互相发现、委派任务、协作，不管底层技术如何。

机制（几大支柱）：

核心角色：User、A2A Client（客户端 Agent）、A2A Server（远端 Agent，「不透明」运行）。
Agent Card：一个 JSON 文件（位于 /.well-known/agent.json），声明身份、端点 URL、版本、能力（流式、pushNotifications）、技能、I/O 模式、认证要求——是发现的基础（标准 URI、精选注册表、或直接配置）。
通信与任务：工作组织成带唯一 ID、走状态生命周期的异步 Task；通信用 JSON-RPC 2.0 over HTTP(S)，有 Messages（元数据 + 含内容的 Parts）和 Artifacts（可交付输出）；contextId 把相关 Task 分组。
交互机制：同步请求/响应（tasks/send）、异步轮询、SSE 流式（tasks/sendSubscribe）、webhook 推送通知。
安全：mTLS、审计日志、Agent Card 认证声明、HTTP 头传凭证（OAuth 2.0/API key）。

3.2 A2A vs MCP（关键区分，本书明示）

	MCP（Anthropic）	A2A（Google）
连接对象	单个 Agent ↔ 外部工具/数据/上下文	Agent ↔ Agent
定位	agent-to-tool	agent-to-agent 发现、通信、任务委派
关系	互补，不竞争	互补，不竞争

3.3 解决什么

以前没有通用协议让不同框架（LangGraph、CrewAI、ADK）的 Agent 通信；集成都 bespoke 且昂贵，阻塞了复杂多 Agent 系统。

3.4 陷阱与权衡

Agent Card 端点安全很重要（携带敏感但非机密信息）——要用访问控制、mTLS、网络限制。
主要复杂度在分布式 Agent 的编排/安全开销。

来源：xindoo 中文版 Chapter 15: A2A · Google A2A 协议仓库 · Google A2A 博客

四、Resource-Aware Optimization：资源感知优化

4.1 定义与机制

定义：让 Agent 动态监控和管理算力、时间、财务资源，在预算内做执行路径决策（模型/工具选择）——区别于单纯的动作序列规划。

机制：

路由 Agent：按复杂度分类请求，转发给最便宜的够用模型（如简单的送 Gemini Flash、复杂推理送 Gemini Pro）。
critic Agent：评估响应质量并反馈，改进路由逻辑。
实现可走 ADK 多 Agent 架构、LiteLLM，或 OpenRouter（提供 openrouter/auto 自动选模型 + 有序模型 fallback 自动故障转移）。
此外还有：自适应工具选择、上下文裁剪/摘要、主动资源预测、成本敏感探索、能耗感知部署、并行/分布式感知、学习型分配策略、优雅降级。

4.2 解决什么

LLM 应用可能又慢又贵；总用最强模型低效。输出质量和资源消耗之间有根本权衡，没有动态管理就无法适应任务复杂度或守预算。

4.3 陷阱与权衡

质量/成本权衡是固有的——更快更便宜的模型牺牲深度/准确率。
路由误分类（把复杂查询送便宜模型）会降质；critic Agent 专门抓这个但自带成本/延迟。
Fallback 增韧性但可能掩盖底层可用性问题。

来源：xindoo 中文版 Chapter 16: Resource-Aware Optimization · OpenRouter

五、Reasoning Techniques：显式多步推理

5.1 定义与机制

定义：一族让 Agent 内部推理显式化、多步化的方法，使其能分解复杂问题、权衡备选、得出更可靠结论。

机制——本章覆盖的技术（密集章节）：

技术	核心
Chain-of-Thought (CoT)	让模型生成中间推理步；把难单步问题转成简单多步；奠基性
Tree-of-Thought (ToT)	分支成多推理路径形成树；支持回溯和探索备选
自我纠错/自我改进	Agent 内部批评自己的输出和中间思考，迭代精修
PALMs（程序辅助）	LLM 生成并执行代码（如 Python）卸载确定性计算/逻辑
RLVR（带可验证奖励的 RL）	训练专门的「推理模型」，花可变算力「思考」，生成超长动态 CoT 链，支持自纠和回溯；用有已知答案的问题（数学/代码）训练
ReAct（推理 + 行动）	交错推理（计划）与行动（工具调用）和观察（结果），Think→Act→Observe 循环；Agent 操作循环的核心
Chain of Debates (CoD)	多模型协作争论，像 AI 委员会/同行评审
Graph of Debates (GoD)	论点节点 + 支持/反驳边的非线性网络
MASS	三阶段自动多 Agent 设计（块级 prompt 优化→拓扑优化→工作流级优化）
Deep Research	给时间预算，自主探索→推理→追问→综合带引用报告（Perplexity、Gemini Deep Research、OpenAI）

5.2 关键原则——推理扩展定律（Inference Scaling Law）

区别于训练扩展定律：性能随推理时算力增加而可预测地提升。给小模型更多「思考预算」能超过用简单生成的大模型。这重构了「越大越好」的直觉，也是资源感知设计的基础。

5.3 陷阱与权衡

更多推理算力 = 更多延迟和成本（与 Ch16 直接冲突）。
Deep Research 式多步循环可能徒劳打转。
推理透明有助可审计，但不保证正确（模型仍可能「plausible-but-wrong」）。

来源：xindoo 中文版 Chapter 17: Reasoning Techniques

六、Guardrails / Safety：多层纵深防御

6.1 定义与机制

定义：分层防御机制（输入校验、输出过滤、行为约束、工具限制、审核 API、人工监督），让自治运行中的 Agent 保持安全、伦理、不跑偏。

机制（实现阶段）：输入校验/净化（滤恶意内容）、输出过滤/后处理（分析毒性/偏见）、prompt 级行为约束、工具使用限制（限 Agent 能力）、Agent 核心处的外部审核 API、HITL 监督。可用一个便宜低算力模型当快速预筛/复核。CrewAI 示例用专门的策略执行 Agent + PolicyEvaluation Pydantic schema + validate_policy_evaluation 护栏函数；prompt 护栏防越狱（jailbreak）——绕过安全的对抗 prompt。

6.2 解决什么

无约束自治 Agent 不可预测，可能产出有害/偏见/不伦理/事实错的输出；易受对抗攻击（prompt 注入、越狱），危及信任、法律和声誉。

6.3 陷阱与权衡

护栏不是限制能力而是引导行为——过度限制损害可用性。
⚠️ 必须纵深防御——组合多技术才稳健，单层不够。
⚠️ 2025 研究（arXiv
.11168）证实坚定攻击者能绕过护栏检测——分层防御是必需的。
护栏要随风险演进持续监控/评测/迭代。

来源：xindoo 中文版 Chapter 18: Guardrails/Safety · NVIDIA NeMo Guardrails · 护栏绕过研究 (arXiv
.11168)

七、Evaluation & Monitoring：持续度量

7.1 定义与机制

定义：一个框架，在动态真实环境里持续度量 Agent 的有效性、效率和合规——因为 Agent 行为概率性，超越了传统 pass/fail 测试。

机制：定义指标（准确率、延迟、token 用量/成本）、建反馈环、做报告。具体子题：

响应评估：准确率（本书指出陷阱——精确字符串匹配在改写下失效，如「巴黎是法国首都」vs「法国首都是巴黎」）。
延迟监控 + token 跟踪（记到 InfluxDB/Prometheus 等时序库、BigQuery/Snowflake 数仓、Datadog/Splunk/Grafana 可观测平台）。
LLM-as-a-Judge：用 LLM 按评分标准评主观质量（如「有用性」）。
Agent 轨迹评估：评 Agent 走的步骤序列而非只看最终输出；对照理想轨迹用指标（精确匹配、有序匹配、任意序匹配、precision/recall/单工具使用）。
ADK 评测：测试文件（JSON，单会话，单元测试）和评测集文件（多轮，集成测试），可走 Web UI（adk web）、pytest、CLI（adk eval）。
多 Agent 评测：查协作质量、计划遵循、是否正确选 Agent-for-task、加 Agent 是改进还是损害。

7.2「高级承包商」模型（Agent Companion，Gulli 等）——重要概念

从模糊 prompt 驱动的 Agent 进化成可问责「承包商」，四支柱：① 形式化契约（交付物/范围/数据源/成本时间的精确规格，客观可验证）；② 动态协商/反馈生命周期（Agent 执行前可标记不可得数据或歧义）；③ 质量优先的迭代执行（对照契约单元测试自验证）；④ 层级分解的子契约（主承包商把任务拆子契约委派专家）。

7.3 陷阱与权衡

精确匹配准确率对 LLM 输出有误导。轨迹评估可能脆（过度约束到一个「理想」路径）。LLM-as-Judge 有自身偏差。多 Agent 评测指数级更难。

来源：xindoo 中文版 Chapter 19: Evaluation and Monitoring

八、Prioritization：任务优先级

8.1 定义与机制

定义：让 Agent 按重要性、紧急度、依赖和成本评估排序任务/目标/动作，在资源受限、多目标环境里聚焦最关键工作。

机制（四核心要素）：① 准则定义（紧急/重要/依赖/资源/成本收益/用户偏好）；② 任务评估（按准则打分，从简单规则到 LLM 评分）；③ 调度/选择逻辑（队列或高级规划）；④ 动态重排（新关键事件出现或截止临近时适应）。在多层级运作：高层目标优先级、计划内子任务排序、即时动作选择。

8.2 陷阱与权衡

准则权重主观且依赖上下文；权重错 → 排序错。
⚠️ 动态重排可能 thrashing（不停重规划不前进）。
⚠️ 过度重紧急会饿死重要不紧急工作（经典艾森豪威尔矩阵陷阱）。

来源：xindoo 中文版 Chapter 20: Prioritization

九、Exploration & Discovery：主动探索

9.1 定义与机制

定义：让 Agent 在开放式环境里主动寻找新信息、发现可能性、识别「未知的未知」——区别于被动行为或在预定义解空间内优化。

机制——两个真实系统当样板：

① Google AI Co-Scientist（Gemini，Google Research）：多 Agent 科研协作者，含专门 Agent——Generation（文献辩论提假设）、Reflection（同行评审查正确/新颖）、Ranking（Elo 锦标赛比假设）、Evolution（精修顶级假设）、Proximity（聚类相似想法）、Meta-review（综合洞见）。用测试时算力扩展。已在药物重定位（AML——提了新药 KIRA6，体外确认）、新肝纤维化表观靶点、独立复现一个未发表抗菌耐药发现上验证。GPQA Diamond top-1 达 78.4%。强调增强非自动化（scientist-in-the-loop）。

② Agent Laboratory（Samuel Schmidgall，MIT 许可）：自治研究流，按学术角色分层——Professor（设议程、委派）、Postdoc（执行研究、写跑代码）、Reviewer（同行评审）、ML Engineer & Software Engineer（数据准备代码）。三 Agent 评审机制模拟人类同行评审。集成 AgentRxiv（自治研究产出去中心化仓库）。阶段：文献综述 → 实验 → 报告 → 知识分享。

9.2 陷阱与权衡

知识限于开放获取文献——可能漏付费墙的前作。
负结果访问有限（很少发表）——但资深科学家依赖它。
继承 LLM 局限含幻觉——生成假设需实验验证。
安全关键：Co-Scientist 对全部输入/输出筛查 1200 个对抗研究目标以拒危险研究。
关联经典探索 - 利用困境（exploration-exploitation dilemma）。

来源：xindoo 中文版 Chapter 21: Exploration and Discovery · Google AI Co-Scientist · Agent Laboratory

十、七模式横向对比

模式	解决什么	核心动作	最大陷阱
A2A	跨框架 Agent 无法协作	标准化 Agent 间发现/委派	分布式编排/安全开销
Resource Optimization	一律用最强模型太贵	按复杂度动态选模型	路由误分类降质
Reasoning	复杂问题一步答不对	显式多步推理 + 推理扩展定律	推理算力贵且可能打转
Guardrails	自治会出有害/被攻击输出	多层纵深防御	单层可被绕过（2025 已证）
Evaluation	Agent 概率性、传统测试不够	评轨迹 + LLM-as-Judge	精确匹配误导；轨迹评估脆
Prioritization	多目标多任务资源有限	按多准则排序 + 动态重排	thrashing；紧急饿死重要
Exploration	预设静态知识不足以创新	主动探索发现未知	限于开放文献；幻觉需验证

来源：xindoo 中文版 Ch15–21

十一、按用途选型决策表

你的用途	推荐方案
要让不同框架的 Agent 互通	A2A（配合 MCP：A2A 管 Agent 间，MCP 管 Agent↔工具）
要降本、按难度选模型	Resource-Aware Optimization（路由 + critic，或 OpenRouter auto/fallback）
要更强推理、做 Deep Research	Reasoning Techniques（CoT/ReAct/RLVR；注意与成本冲突）
要防 prompt 注入/越狱/有害输出	Guardrails（纵深防御；NeMo Guardrails）
要持续度量 Agent 表现	Evaluation & Monitoring（评轨迹，不只看结果）
要让生产 Agent 可问责	「高级承包商」模型（形式化契约 + 自验证）
多任务要智能排序	Prioritization（四准则 + 动态重排）
要让 Agent 主动发现未知	Exploration（参考 Co-Scientist / Agent Laboratory 范式）

一句话总原则：Part Four 是「Agent 系统从能跑走向能规模化、安全、可运维」的关键——抓住「推理质量 vs 成本延迟」这条主线，按协作/成本/推理/安全/度量/调度/探索七个维度补齐运维栈。

十二、参考资料

原书与翻译

evoiz/Agentic-Design-Patterns（官方仓库） · xindoo 中文翻译版

协议与开源项目

姊妹篇

学习笔记