【学习笔记】Agentic 设计模式(五):企业级七模式——A2A / 资源优化 / 推理 / 护栏 / 评测 / 优先级 / 探索

22 min

整理日期:2026-07-01 涵盖范围:A2A、Resource-Aware Optimization、Reasoning Techniques、Guardrails/Safety、Evaluation & Monitoring、Prioritization、Exploration & Discovery(本书 Part Four Ch 15–21,共 7 模式) 说明:这是 Agentic 设计模式系列总览 的第五篇分篇,也是覆盖章节最多的一篇。这一层是「规模化、安全与运维」——当 Agent 系统要跨框架协作、控制成本、强化推理、保证安全、持续度量、智能调度、自主探索时,就用这七个模式。内容基于本书英文原书(经 xindoo 中文版核实),A2A/MCP/Guardrails 部分对照官方文档与开源项目。标注「(未确认)」处以英文原书为准。

一、核心结论(太长不看)

  1. 这一层七模式是「企业规模化」的完整运维栈:A2A(跨框架协作)、Resource Optimization(控成本)、Reasoning(强化推理)、Guardrails(保安全)、Evaluation(持续度量)、Prioritization(智能调度)、Exploration(自主探索)。
  2. A2A vs MCP 是本层最重要的协议区分MCP(Anthropic)= Agent↔工具/上下文A2A(Google)= Agent↔Agent。二者互补不竞争,都用 JSON-RPC 2.0。A2A 用 Agent Card(/.well-known/agent.json)做发现、用异步 Task 状态机管协作、支持 SSE 流/webhook 推送/mTLS 安全。
  3. Resource-Aware Optimization 的核心是「按复杂度动态选模型」:路由 Agent 把简单请求送便宜模型(Gemini Flash)、复杂的送强模型(Gemini Pro),critic Agent 反馈改进路由。OpenRouter 的 openrouter/auto(自动选模型)和有序 fallback 是现成实现。⚠️ 质量/成本权衡是固有的。
  4. Reasoning Techniques 是个密集章节,覆盖 CoT、ToT、自我纠错、PALMs(生成并执行代码)、RLVR(带可验证奖励的 RL,训练推理模型)、ReAct(Think→Act→Observe 循环,Agent 操作循环的核心)、Chain/Graph of Debates、Deep Research底层原则是「推理扩展定律」——给小模型更多「思考预算」能超过用简单生成的大模型。
  5. Guardrails 不是「限制能力」而是「引导行为」:输入校验/输出过滤/行为约束/工具限制/审核 API/HITL 多层防御。⚠️ 2025 研究(arXiv
    .11168)证实坚定攻击者能绕过护栏检测——所以必须纵深防御,单层不够
    。NVIDIA NeMo Guardrails 是标杆开源库。
  6. Evaluation 的核心洞见是「传统测试对概率性 Agent 不够」:要评轨迹(Agent 走的步骤序列)而非只看最终输出;LLM-as-a-Judge 评主观质量;本书还提出**「高级承包商」模型**(形式化契约 + 动态协商 + 自我验证 + 层级分解)作为生产可靠性的范式。
  7. Prioritization 四要素(紧急/重要/依赖/成本)+ 多层级(目标/子任务/即时动作)+ 动态重排。⚠️ 过度重排会 thrashing(不停重规划不前进);过度重紧急会饿死重要不紧急任务。
  8. Exploration 用两个真实系统当样板Google AI Co-Scientist(Gemini 多 Agent 科研协作,含生成/反思/排名/演化/邻近/元评审六类 Agent,已在药物重定位上获体外验证)和 Agent Laboratory(MIT 许可,按学术角色分层)。共同强调增强而非自动化(scientist-in-the-loop),受限于开放文献与负结果缺失,且要防危险研究(Co-Scientist 对 1200 个对抗研究目标做筛查)。

来源:xindoo 中文版 Ch15–21 · Google A2A 协议 · NVIDIA NeMo Guardrails


二、贯穿 Part Four 的一条主线

读这七个模式时,要抓住一条贯穿的张力——「推理质量 vs 成本延迟」

  • 想要更强推理(Reasoning Techniques, Ch17)→ 但推理算力更贵更慢(Resource-Aware Optimization, Ch16 要管这个)→ 所以必须评测监控Evaluation, Ch19)来判断质量是否值这个成本。
  • 同时,规模化和强能力带来更大风险 → 要护栏Guardrails, Ch18);任务一多就要排序Prioritization, Ch20);要跨框架协作就要A2ACh15);要发现未知就要探索Exploration, Ch21)。

这条主线能帮你把这七个看似分散的模式串成一个连贯的「企业运维」故事。

来源:xindoo 中文版 Part Four


三、A2A:Agent 间通信标准

3.1 定义与机制

定义:一个开放的、基于 HTTP 的协议(Google 的 Agent2Agent),让不同框架构建的 AI Agent 能互相发现、委派任务、协作,不管底层技术如何。

机制(几大支柱)

  • 核心角色:User、A2A Client(客户端 Agent)、A2A Server(远端 Agent,「不透明」运行)。
  • Agent Card:一个 JSON 文件(位于 /.well-known/agent.json),声明身份、端点 URL、版本、能力(流式、pushNotifications)、技能、I/O 模式、认证要求——是发现的基础(标准 URI、精选注册表、或直接配置)。
  • 通信与任务:工作组织成带唯一 ID、走状态生命周期的异步 Task;通信用 JSON-RPC 2.0 over HTTP(S),有 Messages(元数据 + 含内容的 Parts)和 Artifacts(可交付输出);contextId 把相关 Task 分组。
  • 交互机制:同步请求/响应(tasks/send)、异步轮询、SSE 流式(tasks/sendSubscribe)、webhook 推送通知。
  • 安全:mTLS、审计日志、Agent Card 认证声明、HTTP 头传凭证(OAuth 2.0/API key)。

3.2 A2A vs MCP(关键区分,本书明示)

MCP(Anthropic)A2A(Google)
连接对象单个 Agent ↔ 外部工具/数据/上下文Agent ↔ Agent
定位agent-to-toolagent-to-agent 发现、通信、任务委派
关系互补,不竞争互补,不竞争

3.3 解决什么

以前没有通用协议让不同框架(LangGraph、CrewAI、ADK)的 Agent 通信;集成都 bespoke 且昂贵,阻塞了复杂多 Agent 系统。

3.4 陷阱与权衡

  • Agent Card 端点安全很重要(携带敏感但非机密信息)——要用访问控制、mTLS、网络限制。
  • 主要复杂度在分布式 Agent 的编排/安全开销。

来源:xindoo 中文版 Chapter 15: A2A · Google A2A 协议仓库 · Google A2A 博客


四、Resource-Aware Optimization:资源感知优化

4.1 定义与机制

定义:让 Agent 动态监控和管理算力、时间、财务资源,在预算内做执行路径决策(模型/工具选择)——区别于单纯的动作序列规划。

机制

  • 路由 Agent:按复杂度分类请求,转发给最便宜的够用模型(如简单的送 Gemini Flash、复杂推理送 Gemini Pro)。
  • critic Agent:评估响应质量并反馈,改进路由逻辑。
  • 实现可走 ADK 多 Agent 架构、LiteLLM,或 OpenRouter(提供 openrouter/auto 自动选模型 + 有序模型 fallback 自动故障转移)。
  • 此外还有:自适应工具选择、上下文裁剪/摘要、主动资源预测、成本敏感探索、能耗感知部署、并行/分布式感知、学习型分配策略、优雅降级。

4.2 解决什么

LLM 应用可能又慢又贵;总用最强模型低效。输出质量和资源消耗之间有根本权衡,没有动态管理就无法适应任务复杂度或守预算。

4.3 陷阱与权衡

  • 质量/成本权衡是固有的——更快更便宜的模型牺牲深度/准确率。
  • 路由误分类(把复杂查询送便宜模型)会降质;critic Agent 专门抓这个但自带成本/延迟。
  • Fallback 增韧性但可能掩盖底层可用性问题。

来源:xindoo 中文版 Chapter 16: Resource-Aware Optimization · OpenRouter


五、Reasoning Techniques:显式多步推理

5.1 定义与机制

定义:一族让 Agent 内部推理显式化、多步化的方法,使其能分解复杂问题、权衡备选、得出更可靠结论。

机制——本章覆盖的技术(密集章节)

技术核心
Chain-of-Thought (CoT)让模型生成中间推理步;把难单步问题转成简单多步;奠基性
Tree-of-Thought (ToT)分支成多推理路径形成树;支持回溯和探索备选
自我纠错/自我改进Agent 内部批评自己的输出和中间思考,迭代精修
PALMs(程序辅助)LLM 生成并执行代码(如 Python)卸载确定性计算/逻辑
RLVR(带可验证奖励的 RL)训练专门的「推理模型」,花可变算力「思考」,生成超长动态 CoT 链,支持自纠和回溯;用有已知答案的问题(数学/代码)训练
ReAct(推理 + 行动)交错推理(计划)与行动(工具调用)和观察(结果),Think→Act→Observe 循环;Agent 操作循环的核心
Chain of Debates (CoD)多模型协作争论,像 AI 委员会/同行评审
Graph of Debates (GoD)论点节点 + 支持/反驳边的非线性网络
MASS三阶段自动多 Agent 设计(块级 prompt 优化→拓扑优化→工作流级优化)
Deep Research给时间预算,自主探索→推理→追问→综合带引用报告(Perplexity、Gemini Deep Research、OpenAI)

5.2 关键原则——推理扩展定律(Inference Scaling Law)

区别于训练扩展定律:性能随推理时算力增加而可预测地提升。给小模型更多「思考预算」能超过用简单生成的大模型。这重构了「越大越好」的直觉,也是资源感知设计的基础。

5.3 陷阱与权衡

  • 更多推理算力 = 更多延迟和成本(与 Ch16 直接冲突)。
  • Deep Research 式多步循环可能徒劳打转。
  • 推理透明有助可审计,但不保证正确(模型仍可能「plausible-but-wrong」)。

来源:xindoo 中文版 Chapter 17: Reasoning Techniques


六、Guardrails / Safety:多层纵深防御

6.1 定义与机制

定义:分层防御机制(输入校验、输出过滤、行为约束、工具限制、审核 API、人工监督),让自治运行中的 Agent 保持安全、伦理、不跑偏。

机制(实现阶段):输入校验/净化(滤恶意内容)、输出过滤/后处理(分析毒性/偏见)、prompt 级行为约束、工具使用限制(限 Agent 能力)、Agent 核心处的外部审核 API、HITL 监督。可用一个便宜低算力模型当快速预筛/复核。CrewAI 示例用专门的策略执行 Agent + PolicyEvaluation Pydantic schema + validate_policy_evaluation 护栏函数;prompt 护栏防越狱(jailbreak)——绕过安全的对抗 prompt。

6.2 解决什么

无约束自治 Agent 不可预测,可能产出有害/偏见/不伦理/事实错的输出;易受对抗攻击(prompt 注入、越狱),危及信任、法律和声誉。

6.3 陷阱与权衡

  • 护栏不是限制能力而是引导行为——过度限制损害可用性。
  • ⚠️ 必须纵深防御——组合多技术才稳健,单层不够。
  • ⚠️ 2025 研究(arXiv
    .11168)证实坚定攻击者能绕过护栏检测——分层防御是必需的
  • 护栏要随风险演进持续监控/评测/迭代。

来源:xindoo 中文版 Chapter 18: Guardrails/Safety · NVIDIA NeMo Guardrails · 护栏绕过研究 (arXiv

.11168)


七、Evaluation & Monitoring:持续度量

7.1 定义与机制

定义:一个框架,在动态真实环境里持续度量 Agent 的有效性、效率和合规——因为 Agent 行为概率性,超越了传统 pass/fail 测试。

机制:定义指标(准确率、延迟、token 用量/成本)、建反馈环、做报告。具体子题:

  • 响应评估:准确率(本书指出陷阱——精确字符串匹配在改写下失效,如「巴黎是法国首都」vs「法国首都是巴黎」)。
  • 延迟监控 + token 跟踪(记到 InfluxDB/Prometheus 等时序库、BigQuery/Snowflake 数仓、Datadog/Splunk/Grafana 可观测平台)。
  • LLM-as-a-Judge:用 LLM 按评分标准评主观质量(如「有用性」)。
  • Agent 轨迹评估:评 Agent 走的步骤序列而非只看最终输出;对照理想轨迹用指标(精确匹配、有序匹配、任意序匹配、precision/recall/单工具使用)。
  • ADK 评测:测试文件(JSON,单会话,单元测试)和评测集文件(多轮,集成测试),可走 Web UI(adk web)、pytest、CLI(adk eval)。
  • 多 Agent 评测:查协作质量、计划遵循、是否正确选 Agent-for-task、加 Agent 是改进还是损害。

7.2「高级承包商」模型(Agent Companion,Gulli 等)——重要概念

从模糊 prompt 驱动的 Agent 进化成可问责「承包商」,四支柱:① 形式化契约(交付物/范围/数据源/成本时间的精确规格,客观可验证);② 动态协商/反馈生命周期(Agent 执行前可标记不可得数据或歧义);③ 质量优先的迭代执行(对照契约单元测试自验证);④ 层级分解的子契约(主承包商把任务拆子契约委派专家)。

7.3 陷阱与权衡

  • 精确匹配准确率对 LLM 输出有误导。轨迹评估可能脆(过度约束到一个「理想」路径)。LLM-as-Judge 有自身偏差。多 Agent 评测指数级更难。

来源:xindoo 中文版 Chapter 19: Evaluation and Monitoring


八、Prioritization:任务优先级

8.1 定义与机制

定义:让 Agent 按重要性、紧急度、依赖和成本评估排序任务/目标/动作,在资源受限、多目标环境里聚焦最关键工作。

机制(四核心要素):① 准则定义(紧急/重要/依赖/资源/成本收益/用户偏好);② 任务评估(按准则打分,从简单规则到 LLM 评分);③ 调度/选择逻辑(队列或高级规划);④ 动态重排(新关键事件出现或截止临近时适应)。在多层级运作:高层目标优先级、计划内子任务排序、即时动作选择。

8.2 陷阱与权衡

  • 准则权重主观且依赖上下文;权重错 → 排序错。
  • ⚠️ 动态重排可能 thrashing(不停重规划不前进)。
  • ⚠️ 过度重紧急会饿死重要不紧急工作(经典艾森豪威尔矩阵陷阱)。

来源:xindoo 中文版 Chapter 20: Prioritization


九、Exploration & Discovery:主动探索

9.1 定义与机制

定义:让 Agent 在开放式环境里主动寻找新信息、发现可能性、识别「未知的未知」——区别于被动行为或在预定义解空间内优化。

机制——两个真实系统当样板

① Google AI Co-Scientist(Gemini,Google Research):多 Agent 科研协作者,含专门 Agent——Generation(文献辩论提假设)、Reflection(同行评审查正确/新颖)、Ranking(Elo 锦标赛比假设)、Evolution(精修顶级假设)、Proximity(聚类相似想法)、Meta-review(综合洞见)。用测试时算力扩展。已在药物重定位(AML——提了新药 KIRA6,体外确认)、新肝纤维化表观靶点、独立复现一个未发表抗菌耐药发现上验证。GPQA Diamond top-1 达 78.4%。强调增强非自动化(scientist-in-the-loop)。

② Agent Laboratory(Samuel Schmidgall,MIT 许可):自治研究流,按学术角色分层——Professor(设议程、委派)、Postdoc(执行研究、写跑代码)、Reviewer(同行评审)、ML Engineer & Software Engineer(数据准备代码)。三 Agent 评审机制模拟人类同行评审。集成 AgentRxiv(自治研究产出去中心化仓库)。阶段:文献综述 → 实验 → 报告 → 知识分享。

9.2 陷阱与权衡

  • 知识限于开放获取文献——可能漏付费墙的前作。
  • 负结果访问有限(很少发表)——但资深科学家依赖它。
  • 继承 LLM 局限含幻觉——生成假设需实验验证。
  • 安全关键:Co-Scientist 对全部输入/输出筛查 1200 个对抗研究目标以拒危险研究。
  • 关联经典探索 - 利用困境(exploration-exploitation dilemma)。

来源:xindoo 中文版 Chapter 21: Exploration and Discovery · Google AI Co-Scientist · Agent Laboratory


十、七模式横向对比

模式解决什么核心动作最大陷阱
A2A跨框架 Agent 无法协作标准化 Agent 间发现/委派分布式编排/安全开销
Resource Optimization一律用最强模型太贵按复杂度动态选模型路由误分类降质
Reasoning复杂问题一步答不对显式多步推理 + 推理扩展定律推理算力贵且可能打转
Guardrails自治会出有害/被攻击输出多层纵深防御单层可被绕过(2025 已证)
EvaluationAgent 概率性、传统测试不够评轨迹 + LLM-as-Judge精确匹配误导;轨迹评估脆
Prioritization多目标多任务资源有限按多准则排序 + 动态重排thrashing;紧急饿死重要
Exploration预设静态知识不足以创新主动探索发现未知限于开放文献;幻觉需验证

来源:xindoo 中文版 Ch15–21


十一、按用途选型决策表

你的用途推荐方案
要让不同框架的 Agent 互通A2A(配合 MCP:A2A 管 Agent 间,MCP 管 Agent↔工具)
要降本、按难度选模型Resource-Aware Optimization(路由 + critic,或 OpenRouter auto/fallback)
要更强推理、做 Deep ResearchReasoning Techniques(CoT/ReAct/RLVR;注意与成本冲突)
要防 prompt 注入/越狱/有害输出Guardrails(纵深防御;NeMo Guardrails)
要持续度量 Agent 表现Evaluation & Monitoring(评轨迹,不只看结果)
要让生产 Agent 可问责「高级承包商」模型(形式化契约 + 自验证)
多任务要智能排序Prioritization(四准则 + 动态重排)
要让 Agent 主动发现未知Exploration(参考 Co-Scientist / Agent Laboratory 范式)

一句话总原则:Part Four 是「Agent 系统从能跑走向能规模化、安全、可运维」的关键——抓住「推理质量 vs 成本延迟」这条主线,按协作/成本/推理/安全/度量/调度/探索七个维度补齐运维栈。


十二、参考资料

原书与翻译

协议与开源项目

姊妹篇