A3 — 把 CLI Agent 接进真实工作流程(Integration & Production)
← A2 — CLI Workflow Patterns · Track A: CLI Power User 第 3 站(最后)
⏱ 时间估算:1-2 周(约 8-15 小时)
📋 本章组成:学习目标 → 进入条件 → 必修阅读 → 动手练习 → 精选 Projects → 自我检查 🔑 关键名词(本章用到):
- 本章一定会用:MCP(让 CLI 接外部数据 / 工具)、CI(每次 push 自动跑检查)
- 延伸阅读名词:observability(追踪 CLI 行为)、eval(量化 CLI 质量)、prompt caching(重复 context 省钱)、cost tracking(token 花费记录)
CLI 跑得顺了之后,下一步:把 CLI 接到你的真实团队流程。这节达成 3 件事:
- 工具连接 — MCP server 把 CLI 接到 Slack / Gmail / 你的 internal API
- 自动检查 — CI(GitHub Actions)每个 PR 自动跑 CLI review
- 成本与记录 — observability 工具追踪每个任务的 cost / latency
这节之后,CLI 不只是你个人的工具,而是 team 工作流的一部分。
📌 学习目标
- 把 1-3 个 MCP server 接到你的 CLI(Slack / Gmail / 你的 internal API / DB)
- 设置 GitHub Actions 自动跑 Claude Code(PR review、release notes 等)
- 加 observability(trace、cost、latency)到 CLI workflow
- 规划 cost budget,知道大 task 会花多少 token
📚 必修阅读
- Stage 5.2 — MCP(Model Context Protocol) — MCP 概念跟基础
- Anthropic — Prompt Caching — 在符合缓存条件时(context 不变、≤ 5 分钟 reuse window 等)可大幅降低重复上下文的成本;实际比例依工作流而异,请以官方文章的条件为准
- Stage 7 — Observability section — langfuse / Helicone / weave
resources/cli-agents-guide.zh-Hans.md“常见坑” — production 用 CLI 最常踩的问题
🛠 动手练习
动手练习 CLI-9:MCP server 接 CLI
照 Stage 5.2 练习:MCP client 的步骤,把至少一个有用的 MCP server 接到你的 CLI:
filesystemserver → 让 CLI 在指定目录外也能读文件githubserver → 让 CLI 直接读 PR / issue- 自架 server → 接你的 internal API / DB
成功标准:在 CLI 对话里直接问“我这个 PR 有 conflict 吗”,CLI 通过 MCP 回答你(不用你开浏览器)。
动手练习 CLI-10:GitHub Actions + CLI
写一个 .github/workflows/cli-review.yml:
- 触发:PR opened / synchronize
- 跑:在 GH Actions runner 内执行 Claude Code(或 Codex),给它
git diff+ 你的.claude/commands/review.zh-Hans.md - 输出:PR comment
成功标准:开新 PR,1-2 分钟内 PR 出现 review comment。
起点:Anthropic 官方有
claude-code-action(GitHub Actions 集成);Codex 有 GitHub App 跟 CLI 两种模式。
动手练习 CLI-11:Cost tracking
跑你日常的一个 task,先预估 token 用量,再实际跑、查 token usage。差距通常很大(多半你低估)。
- 算式:input tokens + output tokens 各乘以 model 单价
- 接 langfuse 或 Helicone(Stage 7 Observability section)做 trace
- 观察:哪个 sub-task 花最多 token?是不是有不必要的 long context?
动手练习 CLI-12:Skill / plugin 跨 team 分享
把你的 .claude/commands/ 跟 CLAUDE.zh-Hans.md 打包成 plugin,发布到内部 marketplace 或 GitHub。Team 其他人 claude plugin install 之后就有同样的工作流。
- Skill / plugin 细节见 Stage 5.3 + 5.4
- 范本:anthropics/claude-plugins-official
🧭 进阶概念在 CLI 日常工作中的应用(7 个 playbooks)🆕
Track A 的人已经在用 Stage 7.5 的进阶概念,只是没给它命名。下面挑 最常用 2-3 个 playbook 细看,其余折叠为延伸阅读——每个 ≤ 6 行。想深挖原理 → 进 Stage 7.5。
📌 规则:每个 playbook 看完先问自己“下一个 PR 我会做不一样的事吗?”会 → applied;不会 → 跳下一个。
📋 Playbook 1:任务 scope 不明,agent 越界
When:派 Codex/Gemini 跑 sweep,不确定它会不会擅自改别的档(F11/F12 那种)
Do:brief 开头明写“动 X / 不能跨 Y”,acceptance preset 加 path filter
Concepts:Work Boundary + Hierarchical Task Decomposition · 📊 图见 concept-cluster Service × 编排 cluster
Read more:
Source Link HumanLayer Writing a good CLAUDE.md Anthropic How Anthropic teams use Claude Code (PDF) 内部 Stage 7.5 🧭 work boundary stack
📋 Playbook 2:多 agent 并行,结果乱
When:Claude planner + 2-3 Codex 并行跑,结果 merge 冲突 / drift
Do:每个 agent 自己一个 commit,用 reviewer pattern 抓 drift(不是大合一);brief 统一 task format + result.json schema
Concepts:Contract Hand-offs + Speculative Parallel · 📊 图见 concept-cluster Service × 编排 + Types × 编排
Read more:
Source Link Addy Osmani Code Agent Orchestra Daniel Vaughan Running Multiple Codex Agents Parallel 内部 agent-collab-skills( agent-task-splitter+agent-output-reconciler)
📋 Playbook 3:Review agent 输出
When:agent 写完 PR,不放心直接 merge,人工 review 跟不上吞吐
Do:加 LLM-as-judge subagent 自动评(binary pass/fail),人类只 spot-check edge case;commit 前跑 acceptance-gate preset
Concepts:Agent-as-Judge + Plan-Act-Reflect · 📊 图见 reading-decision-tree 蓝色 eval 分支
Read more:
Source Link Hamel Husain LLM-as-a-Judge: Complete Guide Hamel Husain Your AI Product Needs Evals Simon Willison Sub-agents in Claude Code
📋 Playbook 4:派遣 subagent 跑独立任务
💡 第一次听到 subagent? 一句话:subagent = 主 Claude session spawn 出来的“子 Claude”,有自己独立的 context,跑完回报结果。**派遣(dispatch)**就是叫 subagent 去做事——像派任务给同事。完整概念 → Stage 5.5。
- When:写了大改动要 commit 前 / 进新 repo 不熟结构 / 想跑 LLM-as-judge 自动评估 / 4 个目标要做同样审查
- Do:调用 Claude Code 内置 subagent(不用自己写任何文件):
code-reviewer— review staged diff、找 bug + securityExplore— 只读搜索 codebase、找 entry point / symbolPlan— 设计 step-by-step 实作计划general-purpose— 不确定该用哪个 / 多步骤研究的 fallback
- Concepts:Hierarchical Task Decomposition + Context Isolation · 📊 图见 concept-cluster Service × 编排 cluster
- Read more:
- Stage 5.5 Subagents(完整理论 + decision table)
resources/subagent-cookbook.zh-Hans.md(15 个 recipe、复制粘贴即可用的 prompt 模板)
📋 Playbook 5:在 CI 里跑 CLI agent
When:把
codex exec/claude --print接进 GitHub Actions,不能每次都需要人按 yes,带宽限制也不能用 OpusDo:分层 autonomy(preset 自动跑 / commit 需审 / push 需人签),设 fallback 便宜 model(Opus 挂了就 fallback Haiku)
Concepts:Autonomy Gradients + Graceful Degradation · 📊 图见 concept-cluster Config × 治理 cluster
Read more:
Source Link Anthropic How Anthropic teams use Claude Code (PDF) Anthropic Engineering Equipping Agents with Skills 内部 Stage 5.5 Subagents + 动手练习 CLI-10
📋 Playbook 6:控制成本
When:用 Codex 跑大批 work,每月 API 账单失控,想压在 budget 内
Do:
plan.yml设max_cost_usd,便宜 model(Haiku)跑探索 / 贵 model(Opus)只跑 polish;开 prompt caching(符合缓存条件时可大幅降低重复 context 成本);自动化 QA(不靠人时间)Concepts:Cost-aware Budget Gates + Throughput-Merge Philosophy · 📊 图见 concept-cluster Config × 韧性 cluster
Read more:
Source Link Simon Willison Sub-agents Anthropic Prompt Caching 内部 本 stage 动手练习 CLI-11(token tracking + langfuse 集成)
📋 Playbook 7:强化 workflow,防 drift
When:CLAUDE.md / SKILL.md rule 写了但没人 enforce,preset YAML 加了也不知道有没有效
Do:故意 break 一条 rule 跑 acceptance gate 看抓不抓得到(chaos test);
docs/当 single source,CLAUDE.md 只当 entry mapConcepts:Failure Injection + System of Record · 📊 图见 failure-lifecycle(F11-F14 进化循环)
Read more:
Source Link HumanLayer Writing a good CLAUDE.md agent-collab-skills observed-failure-modes.md 内部 Stage 7.5 🔁 failure-mode lifecycle
→ 7 个 playbook = 7 个 trigger × 12 个 concept ד对应 reading source”的桥梁。深挖原理 / 看完整 12 个 concept 跟 8 个 cross-vendor 原则 → Stage 7.5。
🎯 精选 Projects
MCP server collection(接 CLI 用)
💡 要找接日常工具的 MCP(Notion / Obsidian / Excel / Postgres / Playwright / Slack / Linear / Figma 等):
resources/mcp-skills-catalog.zh-Hans.md——62 个分类整理,每个都有 stars / license / 适合谁。下面只列“写自己 MCP server / 找 reference”用的核心 catalog。
modelcontextprotocol/servers ⭐⭐⭐⭐⭐
★ 85k+ — 官方 reference servers。filesystem、github、sqlite、git、time、fetch、memory、sequential-thinking。
详见 Stage 5.2。
wong2/awesome-mcp-servers
社群 MCP server catalog。150+ 个依分类整理。
CI 集成 patterns
anthropics/claude-code-action
官方 GitHub Action 范本。PR review、issue triage、自动 fix。
continuedev/continue ⭐⭐⭐⭐
★ 33k+ — 把 AI checks 接到 CI,可在 PR pipeline 强制执行。
Observability + Cost
langfuse/langfuse ⭐⭐⭐⭐⭐
★ 26k+ — open source LLM observability。把 trace、cost、session 都接起来。
Helicone ⭐⭐⭐⭐
★ 5k+ — proxy-based 监控。改 base_url 就有 logging + caching。
promptfoo/promptfoo ⭐⭐⭐⭐⭐
★ 20k+ — eval framework。CLI workflow 升级到 production 前用这个跑回归测试。
详见 Stage 7 Eval。
Production CLI workflow 范本
obra/superpowers ⭐⭐⭐⭐
★ 178k+ — 整套 production-ready skill collection。看别人怎么把 CLI workflow 做完整。
obra/superpowers-marketplace
★ 900+ — 最简 marketplace template。要把你 team 的 CLI workflow 打包共用时参考。
✅ Track A 完整通关自我检查
你能不能:
- [ ] 已有至少 1 个 MCP server 接到你日常 CLI
- [ ] 已有至少 1 个 CI workflow 在自动跑 CLI agent
- [ ] 你能讲出某个 task 跑下去的 token 用量、cost、latency 大致范围
- [ ] 把你的 CLAUDE.zh-Hans.md / commands 打包过至少一次(即使只有自己用)
- [ ] 知道什么任务值得加 observability、什么不值得
如果都可以 → Track A 完整通关。建议接着走 Stage 8 — Agent Interfaces(两 track 共用 hub:Computer Use / Browser Use / Code Sandbox,Track A 视角约 1-2 周),或挑一个 specialized branch 继续走(researcher / developer / teacher / knowledge-worker / everyday-users)。
如果想再深入“怎么写自己的 CLI agent”(不是用现有的)→ 跳到 Track B Stage 3 开始。Track A 跟 Track B 互补。
💡 接下来
走完 Track A 你已经是 CLI power user。下一阶段选择:
加深 CLI workflow(持续优化你的 setup)
- 订阅 Anthropic / OpenAI changelog
- 每季 review 一次
resources/cli-agents-guide.zh-Hans.md看新工具 - 跟你 team 分享 CLAUDE.zh-Hans.md / skills
跨到 Track B(学怎么写自己的 agent)
- Stage 3-4 学 tool use + framework
- Stage 5 深挖 Claude Code 内部运作
- Stage 7 写自己的 multi-agent system
走 specialized branch(把 CLI 应用在特定领域)
- 研究人员 / 开发人员 / 知识工作者 / 教师 / 日常用户
- 各 branch 都会用到 Track A 学的东西
