Skip to content

A3 — 把 CLI Agent 接进真实工作流程(Integration & Production)

繁體中文 | 简体中文 | English

← A2 — CLI Workflow Patterns · Track A: CLI Power User 第 3 站(最后)

时间估算:1-2 周(约 8-15 小时)

📋 本章组成:学习目标 → 进入条件 → 必修阅读 → 动手练习 → 精选 Projects → 自我检查 🔑 关键名词(本章用到):

  • 本章一定会用:MCP(让 CLI 接外部数据 / 工具)、CI(每次 push 自动跑检查)
  • 延伸阅读名词:observability(追踪 CLI 行为)、eval(量化 CLI 质量)、prompt caching(重复 context 省钱)、cost tracking(token 花费记录)

完整定义见 resources/glossary.zh-Hans.md 5 + 6

CLI 跑得顺了之后,下一步:把 CLI 接到你的真实团队流程。这节达成 3 件事:

  1. 工具连接 — MCP server 把 CLI 接到 Slack / Gmail / 你的 internal API
  2. 自动检查 — CI(GitHub Actions)每个 PR 自动跑 CLI review
  3. 成本与记录 — observability 工具追踪每个任务的 cost / latency

这节之后,CLI 不只是你个人的工具,而是 team 工作流的一部分。

📌 学习目标

  • 把 1-3 个 MCP server 接到你的 CLI(Slack / Gmail / 你的 internal API / DB)
  • 设置 GitHub Actions 自动跑 Claude Code(PR review、release notes 等)
  • 加 observability(trace、cost、latency)到 CLI workflow
  • 规划 cost budget,知道大 task 会花多少 token

📚 必修阅读

  1. Stage 5.2 — MCP(Model Context Protocol) — MCP 概念跟基础
  2. Anthropic — Prompt Caching — 在符合缓存条件时(context 不变、≤ 5 分钟 reuse window 等)可大幅降低重复上下文的成本;实际比例依工作流而异,请以官方文章的条件为准
  3. Stage 7 — Observability section — langfuse / Helicone / weave
  4. resources/cli-agents-guide.zh-Hans.md “常见坑” — production 用 CLI 最常踩的问题

🛠 动手练习

动手练习 CLI-9:MCP server 接 CLI

Stage 5.2 练习:MCP client 的步骤,把至少一个有用的 MCP server 接到你的 CLI:

  • filesystem server → 让 CLI 在指定目录外也能读文件
  • github server → 让 CLI 直接读 PR / issue
  • 自架 server → 接你的 internal API / DB

成功标准:在 CLI 对话里直接问“我这个 PR 有 conflict 吗”,CLI 通过 MCP 回答你(不用你开浏览器)。

动手练习 CLI-10:GitHub Actions + CLI

写一个 .github/workflows/cli-review.yml

  • 触发:PR opened / synchronize
  • 跑:在 GH Actions runner 内执行 Claude Code(或 Codex),给它 git diff + 你的 .claude/commands/review.zh-Hans.md
  • 输出:PR comment

成功标准:开新 PR,1-2 分钟内 PR 出现 review comment。

起点:Anthropic 官方有 claude-code-action(GitHub Actions 集成);Codex 有 GitHub App 跟 CLI 两种模式。

动手练习 CLI-11:Cost tracking

跑你日常的一个 task,先预估 token 用量,再实际跑、查 token usage。差距通常很大(多半你低估)。

  • 算式:input tokens + output tokens 各乘以 model 单价
  • 接 langfuse 或 Helicone(Stage 7 Observability section)做 trace
  • 观察:哪个 sub-task 花最多 token?是不是有不必要的 long context?

动手练习 CLI-12:Skill / plugin 跨 team 分享

把你的 .claude/commands/CLAUDE.zh-Hans.md 打包成 plugin,发布到内部 marketplace 或 GitHub。Team 其他人 claude plugin install 之后就有同样的工作流。

🧭 进阶概念在 CLI 日常工作中的应用(7 个 playbooks)🆕

Track A 的人已经在用 Stage 7.5 的进阶概念,只是没给它命名。下面挑 最常用 2-3 个 playbook 细看,其余折叠为延伸阅读——每个 ≤ 6 行。想深挖原理 → 进 Stage 7.5。

📌 规则:每个 playbook 看完先问自己“下一个 PR 我会做不一样的事吗?” → applied;不会 → 跳下一个。

📋 Playbook 1:任务 scope 不明,agent 越界

📋 Playbook 2:多 agent 并行,结果乱

  • When:Claude planner + 2-3 Codex 并行跑,结果 merge 冲突 / drift

  • Do:每个 agent 自己一个 commit,用 reviewer pattern 抓 drift(不是大合一);brief 统一 task format + result.json schema

  • Concepts:Contract Hand-offs + Speculative Parallel · 📊 图见 concept-cluster Service × 编排 + Types × 编排

  • Read more

    SourceLink
    Addy OsmaniCode Agent Orchestra
    Daniel VaughanRunning Multiple Codex Agents Parallel
    内部agent-collab-skillsagent-task-splitter + agent-output-reconciler

📋 Playbook 3:Review agent 输出

📋 Playbook 4:派遣 subagent 跑独立任务

💡 第一次听到 subagent? 一句话:subagent = 主 Claude session spawn 出来的“子 Claude”,有自己独立的 context,跑完回报结果。**派遣(dispatch)**就是叫 subagent 去做事——像派任务给同事。完整概念 → Stage 5.5

  • When:写了大改动要 commit 前 / 进新 repo 不熟结构 / 想跑 LLM-as-judge 自动评估 / 4 个目标要做同样审查
  • Do:调用 Claude Code 内置 subagent(不用自己写任何文件):
    • code-reviewer — review staged diff、找 bug + security
    • Explore — 只读搜索 codebase、找 entry point / symbol
    • Plan — 设计 step-by-step 实作计划
    • general-purpose — 不确定该用哪个 / 多步骤研究的 fallback
  • Concepts:Hierarchical Task Decomposition + Context Isolation · 📊 图见 concept-cluster Service × 编排 cluster
  • Read more

📋 Playbook 5:在 CI 里跑 CLI agent

  • When:把 codex exec / claude --print 接进 GitHub Actions,不能每次都需要人按 yes,带宽限制也不能用 Opus

  • Do:分层 autonomy(preset 自动跑 / commit 需审 / push 需人签),设 fallback 便宜 model(Opus 挂了就 fallback Haiku)

  • Concepts:Autonomy Gradients + Graceful Degradation · 📊 图见 concept-cluster Config × 治理 cluster

  • Read more

    SourceLink
    AnthropicHow Anthropic teams use Claude Code (PDF)
    Anthropic EngineeringEquipping Agents with Skills
    内部Stage 5.5 Subagents + 动手练习 CLI-10

📋 Playbook 6:控制成本

  • When:用 Codex 跑大批 work,每月 API 账单失控,想压在 budget 内

  • Doplan.ymlmax_cost_usd,便宜 model(Haiku)跑探索 / 贵 model(Opus)只跑 polish;开 prompt caching(符合缓存条件时可大幅降低重复 context 成本);自动化 QA(不靠人时间)

  • Concepts:Cost-aware Budget Gates + Throughput-Merge Philosophy · 📊 图见 concept-cluster Config × 韧性 cluster

  • Read more

    SourceLink
    Simon WillisonSub-agents
    AnthropicPrompt Caching
    内部本 stage 动手练习 CLI-11(token tracking + langfuse 集成)

📋 Playbook 7:强化 workflow,防 drift


7 个 playbook = 7 个 trigger × 12 个 concept ד对应 reading source”的桥梁。深挖原理 / 看完整 12 个 concept 跟 8 个 cross-vendor 原则 → Stage 7.5

🎯 精选 Projects

MCP server collection(接 CLI 用)

💡 要找接日常工具的 MCP(Notion / Obsidian / Excel / Postgres / Playwright / Slack / Linear / Figma 等):resources/mcp-skills-catalog.zh-Hans.md——62 个分类整理,每个都有 stars / license / 适合谁。下面只列“写自己 MCP server / 找 reference”用的核心 catalog。

modelcontextprotocol/servers ⭐⭐⭐⭐⭐

★ 85k+ — 官方 reference servers。filesystem、github、sqlite、git、time、fetch、memory、sequential-thinking。

详见 Stage 5.2

wong2/awesome-mcp-servers

社群 MCP server catalog。150+ 个依分类整理。


CI 集成 patterns

anthropics/claude-code-action

官方 GitHub Action 范本。PR review、issue triage、自动 fix。

continuedev/continue ⭐⭐⭐⭐

★ 33k+ — 把 AI checks 接到 CI,可在 PR pipeline 强制执行。

完整介绍见 branches/for-developer.zh-Hans.md


Observability + Cost

langfuse/langfuse ⭐⭐⭐⭐⭐

★ 26k+ — open source LLM observability。把 trace、cost、session 都接起来。

详见 Stage 7 Observability

Helicone ⭐⭐⭐⭐

★ 5k+ — proxy-based 监控。改 base_url 就有 logging + caching。

promptfoo/promptfoo ⭐⭐⭐⭐⭐

★ 20k+ — eval framework。CLI workflow 升级到 production 前用这个跑回归测试。

详见 Stage 7 Eval


Production CLI workflow 范本

obra/superpowers ⭐⭐⭐⭐

★ 178k+ — 整套 production-ready skill collection。看别人怎么把 CLI workflow 做完整。

obra/superpowers-marketplace

★ 900+ — 最简 marketplace template。要把你 team 的 CLI workflow 打包共用时参考。

✅ Track A 完整通关自我检查

你能不能:

  • [ ] 已有至少 1 个 MCP server 接到你日常 CLI
  • [ ] 已有至少 1 个 CI workflow 在自动跑 CLI agent
  • [ ] 你能讲出某个 task 跑下去的 token 用量、cost、latency 大致范围
  • [ ] 把你的 CLAUDE.zh-Hans.md / commands 打包过至少一次(即使只有自己用)
  • [ ] 知道什么任务值得加 observability、什么不值得

如果都可以 → Track A 完整通关。建议接着走 Stage 8 — Agent Interfaces两 track 共用 hub:Computer Use / Browser Use / Code Sandbox,Track A 视角约 1-2 周),或挑一个 specialized branch 继续走(researcher / developer / teacher / knowledge-worker / everyday-users)。

如果想再深入“怎么写自己的 CLI agent”(不是用现有的)→ 跳到 Track B Stage 3 开始。Track A 跟 Track B 互补。

💡 接下来

走完 Track A 你已经是 CLI power user。下一阶段选择:

  1. 加深 CLI workflow(持续优化你的 setup)

  2. 跨到 Track B(学怎么写自己的 agent)

    • Stage 3-4 学 tool use + framework
    • Stage 5 深挖 Claude Code 内部运作
    • Stage 7 写自己的 multi-agent system
  3. 走 specialized branch(把 CLI 应用在特定领域)

    • 研究人员 / 开发人员 / 知识工作者 / 教师 / 日常用户
    • 各 branch 都会用到 Track A 学的东西