Stage 7 — 多 Agent 系统与稳定运作（Multi-Agent & Production）

繁體中文 | 简体中文 | English

⏱ 时间估算：2-4 周（约 15-30 小时）

💡 用语密度高（multi-agent / handoff / eval / observability / guardrails⋯）→ 翻 resources/glossary.md 4 + 6。

📋 本章组成：〔Multi-Agent · Production 化是什么（先定位）+ 三层工程分工 + 何时用 multi-agent〕→ 学习目标 → 进入条件 → 必修阅读 → Harness Engineering（8 个核心元件含 Cost/Latency）→ 动手练习（含练习 6 Cost Optimization）→ Agent Benchmark Landscape：怎么看，不要只看排行榜 → 常用工具推荐 → 精选 Projects → 自我检查 🔑 关键名词：见 resources/glossary.md 4 + 6（multi-agent / orchestration / handoff / eval / observability / harness（模型外围的执行与控制层））

最后一个阶段。你正从“我会做 agent”走向“我能让 agent 真的给人稳定用——多个 agent 协作、有 eval、有 observability、能部署到可用环境”。“Production 化” ≠ enterprise scale——只要 agent 能稳定产出 + 能让别人使用，就算进入这 stage 范围。

🎯 Multi-Agent · Production 化是什么（先定位）

本 stage = 多 agent 怎么协作 + 把 agent 从 prototype 推到能稳定给人用的程度。三句话厘清范围：

不是只学 framework——Stage 4 已教 framework 怎么挑
不一定要 enterprise scale——只要 agent 能让别人用，就算 Production 化
核心是 harness engineering——8 个核心元件 + eval + observability + cost / latency 控制

跟前后 stage 的分工：

Stage 4 = 单 agent framework 怎么挑、ReAct / Plan-Execute 等 pattern
本 stage = 多 agent 协作 + harness engineering（执行系统工程）+ 部署到可用环境 / observability / eval

三层工程分工：Prompt → Context → Harness

工程分工可以分成三层，对应 stack 的不同位置（不是 call 一次 vs 多次的差别）：

层级	概念	核心问题	关注单位	对应 stage
1	Prompt Engineering	这一次要怎么问？	单次 LLM call	Stage 2
2	Context Engineering	这次该给模型哪些信息？	多次互动中的上下文	Stage 6
3	Harness Engineering （本 stage）	整个流程怎么跑起来？	可执行的 LLM workflow / system	本 stage

白话差异：

Prompt = 设计一个好的问法，让模型这次回答准
Context = 动态决定要放入哪些背景、记忆、文件、工具结果，让模型知道当前情境
Harness = 把 prompt、context、tools、state、流程控制、错误处理串成一套真的能跑的系统

本 stage 三个核心问题：

Multi-agent 协作 — debate / planner-executor / peer review / handoff / supervisor-worker pattern
Harness Engineering — agent loop / tool registry（agent 可调用工具的清单 + 接口定义）/ context manager / safety / retry / telemetry / eval / cost（8 个核心元件、下面详述）
Production 化 — eval harness / observability / cost & latency 优化 / 部署到可用环境

跟 Stage 5 的分工（避免混淆）：

跟谁比	那边讲什么	本 stage 讲什么
Stage 5.5 Subagents	Claude Code 原生 subagent 机制（markdown-based、不写程序）	通用 multi-agent framework（autogen / crewAI / langgraph、跨 vendor）
Stage 5.6 Claude Code source	Claude Code source 解剖（reference implementation case study）	Harness engineering 通则（不绑特定 vendor）

⚠ 但你真的需要 multi-agent 吗？

Multi-agent 不是 default，而是任务真的需要时才上的设计。多数场景应先尝试 simple workflow 或 single agent；只有在任务天然可分解、需要平行探索、单一 context 不够、或需要明确角色分工时，multi-agent 才值得引入。硬上会付 3-10× token、debug 困难、context fragmentation（context 被切散在多个 agent、彼此看不到全貌）严重。

📌 决策框架的 canonical 在 Stage 4：完整的 Anthropic / Cognition 立场对照 + 4 个"该上 multi-agent"信号 + 每个信号对应的 pattern，见 Stage 4 §什么时候真的需要 multi-agent（设计阶段决策）。本节只做 production 前的最后回头检查——4 个信号一个都不在？ → single agent + 好 prompt + tool use 就够，别硬上 multi-agent。本 stage 的 harness engineering 部分（8 个元件 / eval / observability）即使你最后用 single agent 也都会用到——所以即使你决定不走 multi-agent，本 stage 仍是必修。

📌 学习目标

设计 multi-agent orchestration 模式（debate、planner-executor、peer review）
为 agent 架一套 evaluation harness
加上 observability（tracing、logging、cost tracking）
用 Anthropic SDK / OpenAI SDK 做 production deploy（进阶功能：streaming、prompt caching、batching）
把 agent deploy 到 production（Docker、serverless、monitoring）

🚪 进入条件

你应该已经：

完成 Stage 4（用过至少一个 agent framework 跑 multi-agent demo）
完成 Stage 5（懂 MCP / Skills / Plugins / Subagents 各自角色，并用 5.6 解剖过 harness 内部）
完成 Stage 6（会基本 RAG，能讲出 memory pattern 差异）
对 Docker / git / CI 基础熟悉（production deploy 会用到）

没到的话 → 补完前面几个 stage。本 stage 是“组合所有前面学到的东西 → 跑 production”，缺一块都会卡。

📚 必修阅读

Anthropic — Building Effective Agents — 用 production 的角度再读一次
Anthropic — Prompt Caching — 90% 成本下降的技巧
Anthropic — Message Batches API — 异步 batch job
anthropics/courses — Prompt Evaluations ⭐⭐⭐⭐⭐ ★ 21k+ — Anthropic 官方 5 course umbrella、module 4“Prompt Evaluations”对应本 stage eval / observability 部分。Jupyter notebook、教怎么系统化评估 prompt 跟 agent 行为。
任一 eval framework 的文件 — promptfoo 或 LangSmith 或 weave
ai-boost/awesome-harness-engineering（★ 940）— agent harness 的工具 / pattern / eval / memory / MCP / observability 全集合
ZhangHanDong/harness-engineering-from-cc-to-ai-coding（★ 1.3k+）— 从 Claude Code 源码学 harness 设计（中文）

🏗 Harness Engineering — production agent runtime 的工程设计 ⭐ 本 stage 核心概念

定位：模型外围的执行与控制层

要把 LLM 变成可用的 agent，通常会碰到三层工程问题。这三层对应的是不同工程位置，不是单纯用“一次 call”或“多次 call”来区分。

💡 Simon Willison 2025：“coding agent = LLM + harness”；harness = 所有不是 model 本身的代码。
💡 OpenAI 2026 也使用 "Harness Engineering" 这个说法（见 OpenAI Harness Engineering article、2026-02 发布）。

层级	工程的对象	在哪学
1. Prompt Engineering	送进 LLM 的字符串（system prompt / few-shot / 格式）	Stage 2
2. Context Engineering	窗口里装的信息（RAG / memory / tool defs / history 组装）	Stage 6
3. Harness Engineering （本节）	模型外围的执行与控制层（loop / retry / sandbox / observability / 部署）	本 stage

怎么分辨自己在做哪一层？问：

我改的是字符串本身吗？→ Prompt engineering
我改的是塞进窗口的信息吗？→ Context engineering
我改的是调用模型的外围程序吗？→ Harness engineering

→ 三层正交：1 次 call 的 RAG app 也在做 context engineering（重点是怎么组窗口）；50 次 call 但没做 retrieval 的 chatbot，仍然只是在做 prompt engineering。

Harness 的 8 个核心元件

Harness Engineering（Agent 执行系统设计）= 把 LLM、tools、memory、state、workflow control、错误处理、eval、observability 与 deployment 串成一套可执行、可观测、可维护的 agent 系统。

→ 所有不属于 model weights、也不只是 prompt string 本身的工程元件都算 harness 范围。一个 production-grade agent runtime 包含这 8 个核心元件（前 6 个是 runtime 内建、第 7 个 eval 是外挂工具、第 8 个 cost / latency 是跨层议题）：

元件	做什么	对应本 stage 练习
Agent loop	“LLM → tool → result → LLM”循环、稳定处理多轮	练习 1 multi-agent 辩论
Tool registry	动态 tool dispatch、permission gate、sandboxing	（在每个 framework / SDK 都有）
Context manager	message history 管理、context window 控制、auto-compact	Stage 6 + 本 stage 练习 4 SDK
Safety layer	permission prompts、sandboxed exec、destructive op 拦截	（Claude Code 内建、SDK 可自定义）
Retry / recovery	tool fail 怎么处理（exception vs LLM 自己看 error 反思）	练习 4 SDK 进阶
Telemetry / Observability	metrics、logging、token counting、trace export	练习 3 Observability
Eval harness	regression test、quality gate、A/B test	练习 2 Eval
Cost / Latency optimization ⭐ 2024-2026 必修	prompt caching、model routing、thinking budget、batching、semantic cache	练习 6 Cost optimization（新加）

Framework vs Harness 关键差别：

Framework（Stage 4）规范 API — 你调用的接口长什么样
Harness（本节）规范 runtime — 怎么跑、怎么 recovery、怎么观测

参考实现

想看 production-grade harness 长什么样？两个 reference：

Claude Code 整个 runtime — 是 reference harness 实现。读 source 练习见 Stage 5.6（clone claude-agent-sdk-python 解剖 main loop + 上表前 6 个 runtime 元件位置；第 7 个 Eval harness 是外挂、第 8 个 Cost / Latency 是 cross-cutting、见下方深入段）
anthropics/claude-agent-sdk-python source — 上面练习用的具体 repo

→ 本 stage 剩下的 6 个练习（multi-agent / eval / observability / SDK / deploy / cost）每个都是 harness 的一个面向。学完整 stage = 拼出完整的 harness engineering mental model。

第 8 个核心元件深入 — Cost / Latency Optimization（2024-2026 Production 化必修）

Production agent 跑久了，cost / latency 两条线会吃掉你大半预算与用户体验。2024-2026 前沿模型都把这当 first-class API feature——会用 = 省 50-90% cost / latency。

技巧	怎么省	2026 状态
Prompt caching	重复 prefix（system prompt、long context）一次计费、后续 cache hit 折扣 ~90%	Anthropic / OpenAI / Gemini 全支持、自动或手动标记
Model routing / cascade	简单 query → 小 model、难 query → frontier model	RouteLLM / OpenRouter production 内建
Thinking budget	reasoning model 可控 thinking token 上限、trade latency / quality	Claude / Gemini API 参数、o-series 默认高
Speculative decoding	小 model 预测 N token、大 model 一次验证、单 model 速度 ×2-3	vLLM / TGI 内建、推理层自动
Batching	多 query 并行处理、GPU 利用率高	vLLM、production inference layer
Semantic caching	相似 query 共享回答（不只 exact match）	GPTCache / Helicone 内建

Track A 怎么用（用 CLI agent 的人）：

在 Claude Code / Cursor 设置 prompt caching，daily session 省 50-90% cost
用 RouteLLM / OpenRouter 动态切换 model（简单问题用 Haiku / Flash，困难问题用 Opus / Pro）
Claude API 用 thinking_budget 参数控 reasoning model 的 token 上限

Track B 怎么 build（自己写 agent 的人）：

自架 cascade router，把 query embedding → classifier → model 对应起来
在 agent loop 内监控 token cost，超 budget 自动降级
在部署到可用环境时整合 semantic cache 层
Helicone / langfuse 等 observability 平台都已内建这些能力，不用自己写

🛠 动手练习（基础 illustrative 练习）

练习 1：Multi-Agent 辩论

两个 agent 辩论一个题目（例如“该用 Python 还是 Rust 写 backend”），第三个 agent 当裁判。观察辩论收敛或分歧的 pattern。

练习 2：Eval

替你前面的 agent 写一份 eval，跑 N 次量成功率。把“我用眼睛看一下”的习惯换掉。

练习 3：Observability

把 LangSmith、Helicone、或 weave 接上一个 agent，看完整 trace。理解“没 observability 的 agent debug = 黑盒”。

练习 4：SDK 进阶

在同一次调用里用 streaming + prompt caching + tool use。看成本怎么降下来。

练习 5：Deploy

把一个 agent 包进 Docker，deploy 到云端（任何 provider 都行）。学会把 prototype 变成可以给别人跑的东西。

练习 6：Cost Optimization（新加）⭐

量你前面任一个练习 agent 的 token cost、加上 prompt caching、再量一次。观察 cache hit rate 跟 cost 下降的对应关系。Bonus：接 RouteLLM 或 OpenRouter、做 cascade routing（简单 query → Haiku / 难 query → Opus），量平均 cost。

📊 Agent Benchmark Landscape：怎么看，不要只看排行榜 + ⚠ Reward-Hacking 警告

挑 model / build agent 之前，你会想看 benchmark 数字——但 2026-04 UC Berkeley 发现 8 个主流 agent benchmark 全部可被 reward-hack 到 ~100%。下面是 2026 leaderboard 现况 + 怎么看不被骗。

主流 Agent Benchmark 2026-05 SOTA

Benchmark	领域	2026-05 SOTA	领先 Model
SWE-bench Verified	软工 / code agent	87.6%	Claude Opus 4.7
Terminal-Bench	terminal 任务	领先	Claude Opus 4.5 / 4.7
GAIA	general assistant	74.6%	Claude Sonnet 4.5（Princeton HAL）
WebArena	web 导航	68.7%	Claude Mythos Preview
OSWorld	OS-level 桌面控制	76.26%（SOTA、superhuman vs human 72.36%）	OpenAI CUA 38%、多数 frontier 仍卡 50% 以下
τ-bench	tool use 多轮对话	（较难 hack）	Anthropic / OpenAI 领先
RE-bench	research engineering	（较难 hack、接近人类 baseline）	Frontier model

→ 详细排行 + 即时更新：Agent Benchmark Leaderboard 2026、Rapid Claw AI Agent Framework Scorecard 2026

⚠ Berkeley 2026-04 Reward-Hacking 警告

UC Berkeley RDI 2026-04-12 报告：用 automated scanning agent 系统性 audit 8 个主流 benchmark（SWE-bench / WebArena / OSWorld / GAIA / Terminal-Bench / FieldWorkArena / CAR-bench 等）、每个都能 reward-hack 到接近 100%、agent 一个 task 都不用真正解。

意思：leaderboard 上“Claude 87.6% / GPT 85.0%”这种数字、可能其中 X% 是 hack 出来的、不是真的解 task。

怎么看 benchmark 不被骗

看数字方式	推荐
只看 leaderboard top	❌ 上面 8 个都被证实可 hack
看 task-level success rate breakdown	✅ 多数 hack 集中少数 task
跑你自己的 hold-out test set	✅✅ 最可靠、production agent 必做
看 trajectory / log 是否真的解 task	✅ 区分 reward hacking vs genuine solve
看多个 benchmark + 自己 use case	✅ 不依赖单一指标

哪些 benchmark 较难 hack（2026-05）：

τ-bench — 多轮对话 + tool use、reward function 较密集
RE-bench — research engineering 真实任务
你自己的 production eval set ⭐ 永远是最可靠的

💡 production agent 的 eval 纪律：
不要把外部 benchmark 数字当 ground truth、它告诉你“上限”不是“真实表现”
你自己的 eval set（内部 hold-out test）才是上线决策的依据
每次 model upgrade → 跑内部 eval set 验证、不只看厂商公布的 benchmark 提升
接 langfuse / promptfoo 把 eval 自动化、每次 deploy 都跑

🎯 常用 Multi-Agent / Production 工具推荐（按用途分类）

不知道从哪挑工具？下面是 2025-2026 业界常用搭配——挑入口看“场景”、想深入点链接看 repo：

场景	推荐工具	为什么
第一次写 multi-agent（最快上手）	crewAI	role-based、几行 code 跑起来、production pattern 直接
想要 group debate / brainstorm pattern	AutoGen	GroupChat 自由辩论、Microsoft 出品
production 要 audit trail / checkpoint / human-in-loop	LangGraph	state machine、控制最完整
eval 标准化（CI / regression 必装）	promptfoo ⭐	YAML config、跨模型比较、★ 20k+
eval + observability 同平台	langfuse ⭐	OSS、tracing + eval + prompt mgmt、★ 26k+
不改程序、快速 instrumentation	Helicone	proxy 中介、不绑 framework
全 stack 在 LangChain	LangSmith（商业）	LangChain 官方 observability
打造 Claude agent（programmatic）	claude-agent-sdk-python ⭐	Anthropic 官方 agent SDK、跟 Claude Code 同 runtime
Deploy agent 成 API service	BentoML	最完整、Docker + serving
自架开源 LLM（取代付费 API）	vLLM	高吞吐量、★ 79k+
Fine-tune 开源 LLM	LLaMA-Factory	100+ 模型统一 SFT/DPO/PPO/GRPO、Web UI 零 code、中文社群最广、★ 70k+

建议入手顺序：

第一个 multi-agent：crewAI（role-based、最简单）
加 eval：promptfoo（YAML、CI 整合）
加 observability：langfuse（OSS、完整）
Production 升级：换 LangGraph（control 强）+ BentoML（deploy）
进阶：自架 LLM 接 vLLM、fine-tune 用 LLaMA-Factory

🎯 精选 Projects（范本 / SDK / 工具 collection）

按用途分类、22 个项目一张表搞定。挑入口看“适合谁”、想深入点链接看 repo。

分类	Project	⭐	适合谁	为什么推荐 / 备注
Multi-Agent Orchestration	microsoft/autogen	⭐⭐⭐⭐⭐	想要 GroupChat 自由 debate pattern	Stage 4 介绍过、production 场景再回头看 multi-agent 辩论 / brainstorming 模式
	crewAIInc/crewAI	⭐⭐⭐⭐⭐	想要 role-based 流水线	角色式 multi-agent（research → writer → reviewer），最简单 production pattern
	langchain-ai/langgraph	⭐⭐⭐⭐⭐	需要 audit trail / checkpoint / human-in-the-loop	state machine 路线、production 控制最强
Eval Frameworks	promptfoo ⭐	⭐⭐⭐⭐⭐	把 eval 流程标准化、CI 整合	YAML config、跨模型比较。★ 20k+、MIT
	lm-evaluation-harness	⭐⭐⭐⭐	学术 benchmark 主张（MMLU / HellaSwag / GSM8K）	学术等级。★ 12k+、MIT
	openai/evals	⭐⭐⭐⭐	OpenAI 专属 eval / 想回馈上游	★ 18k+
Observability	langfuse ⭐	⭐⭐⭐⭐⭐	自架 production observability	OSS LangSmith 替代、traces + sessions + evals + prompt mgmt。★ 26k+、MIT
	LangSmith（商业）	⭐⭐⭐⭐	全 stack 在 LangChain / LangGraph 上	LangChain 官方、只有 hosted 版
	Helicone	⭐⭐⭐⭐	不想改程序、快速上 instrumentation	proxy 中介、顺便拿到 logging + caching。★ 5.7k+、Apache 2.0
	weave (W&B)	⭐⭐⭐⭐	团队已在用 W&B 做 ML 实验追踪	W&B tracing + eval、跟 wandb 整合
Anthropic SDK 进阶	anthropic-sdk-python	⭐⭐⭐⭐⭐	直接基于 Claude API 做应用	官方 Python SDK：streaming / async / tool use / prompt caching / batches / files
	anthropic-sdk-typescript	⭐⭐⭐⭐	TypeScript / Node / web app	Python SDK 的 TS 版
	claude-agent-sdk-python ⭐	⭐⭐⭐⭐⭐	打造 Claude-based agent 而非只 API	内建 tool use loop / file access / sandbox / subagent 编排；跟 Claude Code 同 runtime、想看内部运作直接读 source。★ 6.9k+、MIT
	claude-agent-sdk-typescript	⭐⭐⭐⭐	Node / web app 环境 Claude agent	Claude Agent SDK TS 版。★ 1.4k+
	Anthropic Cookbook（进阶）	⭐⭐⭐⭐	想看官方进阶 SDK pattern	特别是 `prompt_caching.ipynb` / `tool_use/` / `multimodal/` 三个 notebook
Deployment	BentoML	⭐⭐⭐⭐	把 agent 包成 production API service	Docker + serving framework。★ 8k+、Apache 2.0
	LangServe	⭐⭐⭐⭐	LangChain agent 快速 deploy	底层 FastAPI
	vLLM	⭐⭐⭐⭐	自架开源 LLM 取代付费 API	高吞吐量 LLM serving、Llama / Qwen 等。★ 79k+、Apache 2.0
中文 deploy / fine-tune	datawhalechina/self-llm	⭐⭐⭐⭐	中文团队要自架开源 LLM	training-to-deployment 完整中文指南、Qwen / Llama / GLM / 多模态。★ 30k+、Apache 2.0
	hiyouga/LLaMA-Factory	⭐⭐⭐⭐⭐	要 fine-tune 开源 LLM（不只 prompt eng）	100+ 模型统一 SFT/DPO/PPO/GRPO、Web UI 零 code、中文社群最广。★ 70k+、Apache 2.0
Multi-Agent 案例研究	geekan/MetaGPT	⭐⭐⭐⭐⭐	想看角色分工 + artifact 交接 pattern	SOP-based PM / Architect / Engineer multi-agent team、PRD → 设计 → code 一路产出。★ 67k+、MIT
	OpenBMB/ChatDev	⭐⭐⭐⭐	想看 agent debate / peer-review pattern	对话式软件开发、agents 在 design / code / test 互相辩论。★ 33k+、Apache 2.0、有 zh README
	princeton-nlp/SWE-agent	⭐⭐⭐⭐	理解为什么 tool 设计 > prompt tuning	Agent-Computer Interface (ACI) 设计思路、Princeton paper-backed、SWE-Bench 领先方法。★ 19k+、MIT

🌳 Claude 原生 subagent 机制（不用 framework 也能 multi-agent）见 Stage 5.5。本 stage 重 framework / production；Stage 5.5 重 markdown-based subagent 编排。

✅ Stage 7 之后的自我检查

你能不能：

[ ] 设计一个 multi-agent 系统，协作协定讲得清楚
[ ] 在 CI 跑自动 eval pipeline
[ ] 把 observability（tracing）接到 production agent
[ ] 在真实 workload 上量测 prompt caching 前后的成本差异
[ ] 把 agent deploy 到云端（任何 provider）

如果都可以 → 先进 Stage 7.5 — 进阶 Agentic 概念地图（1 周、不写 code、建立 frontier 概念地图、定位业界还在讨论哪些进阶概念），再进 Stage 8 — Agent Interfaces（两 track 共用 hub）学 agent 怎么跟非 API 世界互动（Computer Use / Browser Use / Sandbox）。或挑一个特化分支、或回头来贡献这份 repo。

💡 接下来

你已经有基础能力了。接下来 6-12 个月应该专注在：

挑一个 production 系统 从 prototype 推到 production
回馈上游（LangGraph、AutoGen、MCP servers、Anthropic cookbook）
读论文——agent 研究进展很快
做出看得到的东西——开源一个真的工具，不要再写教学了

Stage 7 — 多 Agent 系统与稳定运作（Multi-Agent & Production） ​

🎯 Multi-Agent · Production 化 是什么（先定位） ​

三层工程分工：Prompt → Context → Harness ​

⚠ 但你真的需要 multi-agent 吗？ ​

📌 学习目标 ​

🚪 进入条件 ​

📚 必修阅读 ​

🏗 Harness Engineering — production agent runtime 的工程设计 ⭐ 本 stage 核心概念 ​

定位：模型外围的执行与控制层 ​

Harness 的 8 个核心元件 ​

参考实现 ​

第 8 个核心元件深入 — Cost / Latency Optimization（2024-2026 Production 化必修） ​

🛠 动手练习（基础 illustrative 练习） ​

练习 1：Multi-Agent 辩论 ​

练习 2：Eval ​

练习 3：Observability ​

练习 4：SDK 进阶 ​

练习 5：Deploy ​

练习 6：Cost Optimization（新加）⭐ ​

📊 Agent Benchmark Landscape：怎么看，不要只看排行榜 + ⚠ Reward-Hacking 警告 ​

主流 Agent Benchmark 2026-05 SOTA ​

⚠ Berkeley 2026-04 Reward-Hacking 警告 ​

怎么看 benchmark 不被骗 ​

🎯 常用 Multi-Agent / Production 工具推荐（按用途分类） ​

🎯 精选 Projects（范本 / SDK / 工具 collection） ​

✅ Stage 7 之后的自我检查 ​

💡 接下来 ​