Skip to content

Stage 8 — Agent 操作介面(Agent Interfaces):Computer Use · Browser Use · Code Sandbox

繁體中文 | 简体中文 | English

时间估算:2-3 周(约 12-20 小时)

💡 术语密度高:本章包含大量术语(Computer Use / DOM / microVM / Firecracker / Sandbox / Cold start⋯),我们会在文中进行解释。如果您不熟悉这些术语,建议先阅读第 1 章和第 7 章的术语小词典。

📋 本章构成:〔Agent Interfaces 是什么(先定位)+ 三层 interface〕→ 学习目标 → 进入条件 → 必修阅读 → 🖱 Computer Use(屏幕级)→ 🌐 Browser Use(web 级)→ 📦 Code Sandbox(隔离环境含术语小词典)→ Track A 如何使用 → Track B 如何构建 → ⚠ 2026 安全性/风险 → 动手练习 → 常用工具推荐 → 精选项目 → 自我检查 → 下一个前沿(Voice / VLA 展望)

🔑 关键词:见本章内部解释 + resources/glossary.zh-Hans.md

👥 共享中心——与 Stage 5(Claude Code 生态系统)一样,本章是 Track A(CLI 高级用户)和 Track B(Agent 构建者)两条路径的共享中心。Stage 5 和 Stage 8 是本课程的两个核心枢纽。

🎯 Agent Interfaces 是什么(定位)

Agent Interfaces 指的是 agent 如何操作 API 以外的真实世界,例如电脑屏幕、网页,或隔离的代码执行沙箱——agent 与“非 API 世界”的对外互动层(IO boundary)。Stage 0-7 教你“如何构建智能体本身”(LLM → prompt → tool → context → memory → multi-agent → harness);本章教“智能体构建好后,如何操作真实环境”。

3 层 interface

Interface操作对象工作原理代表工具
🖱 Computer Use(screen-level)任何桌面应用(Excel / SAP / Photoshop / 无 API 的软件)截图 → 视觉模型分析 → 计算坐标 → 模拟键鼠Anthropic Claude Computer Use / OpenAI Codex desktop / Gemini in Chrome
🌐 Browser Use(web-level)任何网页DOM 感知导航 + 必要时视觉回退Atlas / Comet / browser-use(开源,86k 星)
📦 Code Sandbox(isolated exec)智能体生成的代码在隔离环境中运行microVM / 容器 / 用户空间内核E2B / Daytona / Modal / Vercel Sandbox / OpenAI Agents SDK(2026 年 4 月内置)

与之前阶段的区别(避免概念混淆)

读者第一个直觉问题:这跟 Stage 3 Tool Use / Stage 5 MCP / Stage 7 Harness 有何不同?

比较对象该阶段管什么本阶段管什么
Stage 3 Tool Use智能体调用 API(函数调用、JSON schema)智能体操作环境(无 API 的软件 / 真实网页 / 运行代码)
Stage 5 MCP工具 / 数据源如何标准化暴露给智能体智能体如何实际与环境交互(MCP 是协议,Interface 是行为)
Stage 7 Harness智能体运行时控制流(循环 / 重试 / 安全)智能体IO 边界(运行时内看不到的外部互动)

核心区别:Tool 是 API 调用,Interface 是 操作环境——前者是抽象的 API,后者直接面对真实的 GUI / web / OS。

为什么 2024-2026 是 Agent Interface 的突破年

为什么现在才补这课

  • 2024-10 之前:智能体只能与有 API 的世界互动(调用 OpenAI / GitHub / Slack API,返回文本)
  • 2024-10:Anthropic Computer Use beta → 智能体第一次能操作真实屏幕
  • 2025-2026:OpenAI(Atlas + Codex desktop)/ Google(Gemini in Chrome)全线入场 → 主流化
  • 2026-05:OSWorld benchmark 达到 76.26%(超越人类基线 72.36%)→ 从研究好奇心变为生产现实

没有本阶段的课程缺陷:学完 Stage 7 你以为就结束了,实际上智能体只能与 API 对话,不能操作没有 API 的软件 / 真实网页 / 运行代码——遇到安全问题(如 Comet 注入 / 亚马逊禁令,见安全)也得不到预警。

为什么两 track 共享

与 Stage 5(Claude Code 生态系统)一样,本阶段是共享中心,而非特定于某一 track:

  • Track A(CLI 高级用户):使用 Claude Computer Use 委派桌面任务,使用 Codex background mode,在 Claude Code 中接入 browser MCP。
  • Track B(Agent 构建者):在自己的智能体中嵌入 browser-use,使用 E2B / Daytona 运行智能体生成的代码,使用 OpenAI Agents SDK 内置的沙箱。

两个 track 都绕不开这 3 层 interface——所以放在共享中心的位置。

📌 学习目标

学完本阶段,你将能够:

  • 区分 3 层 agent interface(Computer Use / Browser Use / Sandbox)及其与 Tool / MCP / Harness 的关系。
  • 阐述 Computer Use / Browser Use 的心智模型(截图 → 视觉 → 坐标 vs DOM 感知)。
  • 解释 microVM / 容器 / Firecracker / gVisor / 冷启动等隔离技术术语。
  • 了解 2026-05 OSWorld / WebArena SOTA 数据,并能解读 reward-hacking 警告。
  • Track A:在日常 CLI 工作流中接入 Computer Use + browser MCP + Codex background mode。
  • Track B:在自己的智能体中使用 browser-use / E2B 嵌入环境互动和沙箱隔离。
  • 设计 4 个安全模式(审批门 / 沙箱 / 人工介入 / 输出过滤器)以防注入攻击。

🚪 进入条件

你应该已经:

  • 完成 Stage 5(了解 MCP / Skills / Plugins,日常使用 Claude Code)。
  • 完成 Stage 7(了解 harness engineering,知道 reward-hacking 警告的含义)。
  • 对 Docker / VM 概念有基础了解(本章会解释 microVM / 容器的差异,但完全没接触过 Docker 会很困难)。
  • 如果只学 Track A:完成 Stage 5 即可,Stage 7 可选;本章 Track A 部分不依赖构建经验。
  • 如果学 Track B:Stage 7 必修,否则 9 的构建示例会卡住。

如果没达到 → 回去补课。

📚 必修阅读

  1. Anthropic — Introducing Computer Use — Computer Use 的原始发布,必读以了解其工作原理。
  2. Anthropic — Claude Opus 4.7 Release Notes — 2026 年 4 月最新的 Opus 4.7 包含对 Computer Use 的改进。
  3. OpenAI — The next evolution of the Agents SDK2026-04 — 内置沙箱和 harness 抽象,是生产级编码智能体架构的里程碑。
  4. OpenAI — Computer-Using Agent (CUA) — OpenAI 版本的 Computer Use,包含 WebArena / OSWorld 数据。
  5. browser-use docs — 开源 web agent 排名第一(86k+ 星),5 行 Python 即可上手。
  6. Microsoft OmniParser — 开源的 GUI 解析工具,是 Computer Use 的重要组成部分。

💡 选择性阅读:纯 Track A 读者阅读 1 + 2;纯 Track B 读者必读 3 + 5 + 6;想全面了解则全部阅读。

🖱 Computer Use — 屏幕级智能体

心智模型 — 工作流与原因

工作流

智能体收到任务

1. 截图 → 看到当前屏幕

2. 视觉模型解析 → 识别按钮 / 文本框 / 图标

3. 计算坐标 → “按钮在 (453, 218)”

4. 模拟键鼠 → click(453, 218) / type("hello")

5. 再次截图 → 查看结果,决定下一步

为什么是这个范式(而非 Tool Use)

  • 大多数软件没有 API,只有 GUI——SAP / Excel / Photoshop / 任何传统桌面应用,要让智能体使用就只能在屏幕层面。
  • API 集成(Stage 3 Tool Use)需要等待厂商开放接口,有时根本等不到。
  • 屏幕级是最后一公里——“智能体能做人类在电脑上做的任何事”。

为什么 2026 年才可行

  • 视觉模型进步:Claude 4.x / GPT-5.x 全是多模态,看屏幕识别元素的准确度大幅提升。
  • OS 级训练数据OSWorld dataset (NeurIPS 2024) 发布了 369 个跨 OS 的真实任务,让前沿实验室有数据可训。
  • Anthropic Computer Use beta(2024-10)开启了商业竞争——OpenAI / Google 跟进,benchmark 一路飙升。

2026 前沿 4 强对比

厂商产品2026 状态OSWorld强项
AnthropicClaude Opus 4.7 / Sonnet 4.6 Computer UseGA,跨 macOS / Linux / Windows(Docker)72.7%(Opus 4.6 基线,接近人类 72%;Opus 4.7 2026-04 发布数据未公布)推理 + 代码智能体,Stage 5/7 主场
OpenAICodex desktop(2026 年 4 月)GA,background mode 不抢占光标,in-app browser,90+ 插件CUA 38.1%与 ChatGPT + Atlas 合并成 Desktop Superapp
OpenAIComputer-Using Agent (CUA)API38.1% / WebArena 58.1%API-first,可整合到自己的技术栈
GoogleGemini in Chrome(Gemini 3)GA + AndroidAuto Browse + Chrome Skills,Chrome Enterprise Premium $6/用户/月
OpenAI Operator2025-08 停运❌ 不可用CAPTCHA / JS / session 处理不稳定,被 Atlas 取代

→ 详细现状见 Agentic Browser Landscape 2026OSWorld leaderboard

为什么 OSWorld 数据差异巨大(理解 benchmark 规范)

现状

模型OSWorld与人类基线差距
Human baseline72.36%
Claude Opus 4.6(Anthropic)72.7%持平
2026-05 SOTA(最强模型)76.26%超越人类
OpenAI CUA38.1%-34%
大多数其他模型30-50%-22% ~ -42%

为什么比 SWE-bench 难

  • 更开放的任务:SWE-bench 有明确的测试来判断通过/失败;OSWorld 任务规范模糊(例如“帮我把 csv 变成图”)。
  • 跨多个 OS:覆盖 Ubuntu / Windows / macOS。
  • 跨应用链:常需要打开 3-4 个应用(Excel → Chrome → Slack)。

为什么真实能力 ≠ 数据(呼应 Stage 7 reward-hacking 警告):

  • OSWorld 也在 UC Berkeley 2026-04 reward-hacking 报告 名单上,被证明可被 hack 到 100%。
  • 看数据的规范:不要只看排行榜顶部,你自己的用例的 hold-out 测试才是基准真相。

平台支持现状(2026-05)

OSAnthropicOpenAIGoogle
macOS✅ GA✅ Atlas + Codex desktop GAChrome 内
Linux✅ Docker⚠ 较受限Chrome 内
Windows✅ Docker🔜 native preview / Atlas Win 即将推出Chrome 内
Mobile✅ Gemini in Chrome on Android

🌐 Browser Use — web 级智能体

心智模型 — DOM 感知 vs 屏幕像素 + 原因

核心区别

路线工作方式何时使用
DOM-aware(浏览器内,有 DOM)直接查询 <button id="submit">document.querySelector('.cart-item')普通 web 应用,结构化页面
Screen-pixel + vision(无 DOM,看截图)与 Computer Use 相同,截图 → 视觉 → 坐标iframe / Canvas / Shadow DOM / 反自动化网站

为什么 DOM 感知比截图更精确

  • 直接抓取 <input name="username"> 元素,无需视觉模型解析像素
  • 速度快 10-100 倍(不运行视觉模型)。
  • 不会误点(元素有确切的边界框)。
  • 缺点:在 JS 动态渲染 / Shadow DOM / Canvas / iframe 内部 DOM 不暴露时失效。

结论 — 生产级浏览器智能体模式DOM-first + 截图回退——先尝试 DOM,抓不到再用视觉。browser-use / Atlas / Comet 都采用这种模式。

迷你术语词典(就地解释)

术语解释
DOM(Document Object Model)浏览器内部将 HTML 解析成的树状结构,可编程查询。
CSS selector选择元素的选择器语法(#submit-btn.cart > li:nth-child(2))。
Shadow DOMWeb Component 的内部 DOM,外部 DOM 查询不到(如 Salesforce / 新版 Reddit)。
iframe嵌入另一个网页,跨源的 DOM 通常被隔离。
Canvas<canvas> 元素内的图形,纯像素,DOM 看不到内容(如 Figma / Google Sheets)。

闭源 AI 浏览器 5 强对比(2026-05)

浏览器来源平台Agent Mode风险 / 注意事项
AtlasOpenAI(2025-10)macOS GA,Win 🔜✅(Plus / Pro / Business)
CometPerplexityiOS / Android / Win / Mac✅ research 最强⚠ 2026 年 Brave 发现可被恶意网页注入;2026-03 联邦禁令禁止访问 Amazon。
DiaThe Browser Company(被 Atlassian 以 6.1 亿美元收购)macOS❌(不走 agent mode,聚焦性能)
Gemini in ChromeGoogle(Gemini 3)Chrome 全平台 + AndroidAuto Browse + Chrome SkillsEnterprise Premium $6/用户/月
OperatorOpenAI2025-08 停运CAPTCHA / JS / session 处理不稳定。

→ 完整比较:Best AI Browsers 2026 TestedAI Browser Comparison 2026

开源 Browser Use 框架

框架状态强项
browser-use86k+ 星,MIT2026 年最火的开源软件,Python,5 行上手,支持 OpenAI / Claude / Gemini / Ollama。
Microsoft OmniParser v22026 年更新,Apache 2.0基于视觉的 GUI 解析,延迟改善 60%,使用 ScreenSpot Pro 准确率达 39.6%。同一仓库包含 OmniTool(Windows 11 VM 控制,可搭配 GPT-5.5 / Claude Opus 4.7 / DeepSeek-V4-Pro / Qwen 2.5VL / Claude Computer Use)。
Playwright + LLM(DIY)不是专门的框架,但 Playwright 是 web 自动化的标准,加上 LLM 包装器即可使用。

为什么 browser-use 这么火(86k 星)

  • DOM-first 范式对 web 来说比截图+视觉更精确,速度也更快。
  • LLM 厂商无关(不绑定 Claude / GPT)。
  • 5 行 Python 上手,入门门槛低。

与 web scraping / RPA 的区别

工具类别工作方式适用场景
Web scraping(BeautifulSoup / Scrapy)固定选择器,纯粹拉取数据。结构稳定的网站,只需要数据。
RPA(UiPath / Power Automate)固定点击/输入脚本,无推理能力。流程已知且不变的企业内部任务。
Browser Agent(本阶段)可推理并动态决定如何操作任务描述模糊,流程可能变化,需要智能体自行探索。

📦 Code Execution Sandbox — 隔离环境(含术语小词典)

为什么智能体必须使用沙箱

威胁模型:智能体写代码 → 在哪里运行?

  • 主机(最坏情况):智能体可能 rm -rf / / 连接互联网泄露数据 / 读取 .ssh/id_rsa / 安装恶意软件。
  • 同一用户隔离进程(中等):能阻止部分攻击,但文件系统 / 网络仍然开放。
  • 隔离沙箱(必要):独立的文件系统 / 进程 / 网络,出事可直接丢弃。

为什么 2026 年才正式成为生产要求

  • 2026-04 OpenAI Agents SDK 更新内置支持 7 个沙箱提供商(Blaxel / Cloudflare / Daytona / E2B / Modal / Runloop / Vercel)。
  • 之前都依赖 Claude Code / Cursor 的审批门来阻止——但生产级智能体无人值守,必须使用沙箱

🔑 隔离技术术语小词典

新读者常卡住的地方,在此解释:

术语一句话解释隔离强度启动速度典型用途
Container(Docker / OCI)Linux 内核命名空间 + cgroups,多容器共享主机内核弱(内核漏洞可跨界)快(< 1s)普通 web 应用,低风险任务
VM(Virtual Machine)Hypervisor 提供虚拟硬件,独立的内核最强慢(秒级)高风险 / 企业级
microVMVM 的精简版,极小体积,但仍是独立内核。快(< 100ms)智能体沙箱的理想选择
FirecrackerAWS 开源的 microVM,用 Rust 编写,AWS Lambda 底层技术,E2B 用它做隔离。serverless / 智能体
gVisorGoogle 编写的“用户空间内核”,拦截并模拟系统调用,无需 hypervisor。中强中快介于容器 / VM 之间
Cold start沙箱从零启动到可用的时间(Daytona 最快 27ms,E2B microVM 较慢)。延迟敏感场景的关键指标
Persistence状态是否跨调用保留(文件 / 进程 / 网络)。长时间运行的智能体必需
GPU passthroughVM / microVM 访问主机 GPU 的技术(只有 Modal 支持)。在沙箱内运行推理 / 微调

核心要点

  • Container = 快 + 隔离弱(共享内核)
  • VM = 慢 + 隔离强(独立内核)
  • microVM = 兼顾(快 < 100ms + 独立内核)→ 大多数智能体沙箱选择 microVM

7 个沙箱对比(2026-05)

Sandbox隔离技术冷启动强项何时使用
DaytonaContainer< 90ms(最快 27ms)启动快,Docker 生态整合延迟敏感
E2BFirecracker microVM~ 200msPython REPL 迭代,最多的社区模板智能体运行 Python 循环
ModalmicroVM + GPU~ 1s唯一支持 GPU 的沙箱在沙箱内进行推理 / 微调
Vercel SandboxContainer< 500msVercel 生态系统整合web 技术栈
CloudflareWorkers / Containers< 100ms全球边缘部署低延迟全球应用
Runloop2026 OpenAI SDK 新支持(新入场)
Blaxel同上(新入场)

→ 详细 benchmark:AI Code Sandbox Benchmark 2026 — Modal vs E2B vs Daytona

OpenAI Agents SDK 2026 年 4 月更新 — 为何是里程碑

这次更新为何重要

  • 之前:使用 OpenAI SDK 开发生产级编码智能体只是“原型”——沙箱要自己接,harness 要自己写,可审计性不足。
  • 2026-04 之后架构上合理——SDK 内置 harness 抽象层 + 沙箱抽象层 + Codex 文件系统工具。

3 个关键新功能

  1. Native harness — 智能体循环 / 模型调用 / 工具路由 / 切换 / 审批 / 追踪 / 恢复全在 SDK 层。
  2. Native sandbox execution — 可自带沙箱,或使用内置的 7 个提供商(Blaxel / Cloudflare / Daytona / E2B / Modal / Runloop / Vercel)。
  3. Codex filesystem tools — 智能体写文件 / 读文件 / 运行命令都有 SDK 级 API。

→ Python 优先,TypeScript 稍后。Anthropic Claude Agent SDK 早就有类似抽象——OpenAI 终于追上了。

🧭 Track A 如何使用(CLI 高级用户视角)

读者痛点:Track A 想知道“我如何用 Claude Computer Use 把桌面任务委派出去”,而不是“如何构建”。

1. 在 Claude Code 内接入 Computer Use / Browser MCP

为何选择 MCP 路线:你已熟悉 Claude Code(Stage 5),新功能可通过 MCP 接入,无需更换工具。

  • Computer-use MCP(社区有多个实现版本):在 .mcp.json 中添加服务器后,就能在 Claude Code 内调用“截图 → 查看 → 操作”。
  • Browser MCP:如 Playwright MCP 等,Claude Code 可打开浏览器运行 web 任务。

2. 使用 Codex desktop 在后台运行

为何使用 background modeOpenAI Codex desktop (2026 年 4 月) 默认不抢占光标,智能体在后台运行,你可以继续做别的事——多个智能体工作流可并行

  • 适合:“分析 Q3 财报,整理成幻灯片,发到 Slack”这种长时间且无需盯着看的任务。
  • 与 Claude Code 互补:用 Claude Code 做代码任务,用 Codex desktop 做跨应用工作流。

3. 使用 Atlas / Comet / Gemini in Chrome 运行 web 任务

场景推荐理由
研究 / 跨页面综合Comet针对研究优化,有引用支持。
ChatGPT 用户 / Agent ModeAtlasPlus/Pro/Business 内置。
Chrome / Google 生态系统Gemini in ChromeAuto Browse + Skills,企业级 DLP。
避免:Comet 运行电子商务 / 银行任务⚠ 2026-03 联邦禁令(详见安全)。

跨应用工作流示例

帮我把 Q3 的 csv 文件做成图表,存到 Slack 的 #finance 频道”:

  1. Claude Code(接入 Computer-use MCP)打开 Excel。
  2. 加载 csv,使用图表向导生成图表。
  3. 截图。
  4. 切换到 Slack,粘贴到 #finance 频道。
  5. 智能体回报完成。

为何这个示例值得做:跨 3 个应用(Excel / 截图工具 / Slack),没有 API 解决方案(Slack 有 API,但 Excel 图表没有可编程路径)。

🧭 Track B 如何构建(Agent 构建者视角)

读者痛点:Track B 想看具体构建代码,而不是“如何使用”。

1. 使用 browser-use 编写 web 智能体

为何使用 browser-use:86k 星,5 行上手,LLM 厂商无关,生产就绪。

python
from browser_use import Agent
from langchain_openai import ChatOpenAI

agent = Agent(
    task="Search Hacker News for top AI agent posts this week and summarize",
    llm=ChatOpenAI(model="gpt-5.5"), # 也可换成 Claude Opus 4.7 / Gemini 3.1 Pro / DeepSeek-V4-Pro
)
result = await agent.run()

→ 内部原理:browser-use 打开 Playwright 浏览器,智能体采用 DOM-first 导航,并有视觉回退机制。

2. 使用 E2B 运行智能体生成的代码

为何使用 E2BFirecracker microVM 隔离 + Python REPL 迭代 + 模板最多。

python
from e2b_code_interpreter import Sandbox

with Sandbox() as sandbox:
    # 智能体编写的代码在这里运行,出问题直接丢弃沙箱即可
    execution = sandbox.run_code(agent_generated_python)
    print(execution.text)

3. 使用 OpenAI Agents SDK 内置沙箱(2026-04 新功能)

为何使用这个 SDK:之前仅为原型设计,2026 年 4 月更新后在架构上已适合生产(见 7 末尾)。

python
from openai.agents import Agent, Sandbox

agent = Agent(
    model="gpt-5.5",
    sandbox=Sandbox(provider="e2b"), # 或 daytona / modal / vercel / ...
    tools=[...]
)

→ 可选 7 个内置提供商,也可自带沙箱。

4. GUI 智能体训练数据

如果你想训练自己的 Computer Use 模型(少数人会做):

→ 大多数人使用前沿模型(Claude / GPT)即可,不必自己训练。这是一条研究路径

⚠ 2026 安全性 / 风险重点

读者痛点:2026 年已发生真实事故,课程不预警 = 学完去构建会出事。

案例 1 — Comet 被 Brave 发现可被网页注入

攻击原理Brave Research 2026):

  • Comet 智能体查看网页 → 网页中隐藏恶意 prompt(如在 HTML 注释中)。
  • LLM 解析网页时将恶意 prompt 当作指令执行。
  • 结果:智能体被劫持,操作用户 Gmail / 银行 / 账户。

为何这是新的攻击面

  • 传统 SQL 注入攻击路径:用户输入 → 服务器(在服务器端过滤即可阻止)。
  • 通过 web 内容的 Prompt injection:web 内容 → LLM 上下文(在 LLM 上下文中难以区分指令与内容)。
  • 防御方式完全不同——无法套用 SQL 注入那套方法。

案例 2 — 联邦禁令(2026-03 Comet 禁止访问 Amazon)

2026 年 3 月,美国联邦法官对 Comet 下达初步禁令,禁止该智能体访问 Amazon 账户——理由是 Comet 在 Amazon 账户上的操作不稳定,且涉及未经授权的商业活动。

为何这是法律风险信号

  • 智能体操作他人账户可能违反该平台的 ToS。
  • 大型电子商务 / 银行平台可能采取法律行动阻止智能体。
  • 生产级智能体部署前必须检查目标平台的 ToS

4 个防护模式(必须添加)

Agent 4 个防护模式

模式如何实现何时必须添加
① 审批门高风险操作(删除文件 / 付款 / 发送邮件 / 数据库删除)前弹窗让用户确认。所有生产级智能体
② 沙箱运行代码的智能体必须安装(见 7 七选一)。任何会运行代码的智能体
③ 人工介入长时间任务的中段检查点。任务 > 10 步或 > 5 分钟
④ 输出过滤器目标限定白名单(仅发布到内部 Slack,仅写入 /tmp)。跨系统操作的智能体

呼应 Stage 7 reward-hacking 警告:课程始终强调“不要盲目相信智能体”的规范——Stage 7 讲评估规范,Stage 8 讲运行时规范。

🛠 动手练习(两 track 各有)

练习 1(Track A):使用 Computer Use 的跨应用工作流

使用 Claude Computer Use 完成:“打开 Excel 加载 data.csv,生成条形图,截图,并粘贴到 Slack 的 #test 频道”。目标:体会智能体没有 API 也能做事

练习 2(Track B):使用 browser-use 编写 web 智能体

使用 browser-use(10 行以内 Python)编写一个智能体,自动到 Hacker News 抓取本周排名前 5 的 AI 文章并摘要。目标:体会 DOM-first 范式。

练习 3(两 track):使用 E2B 运行智能体代码

使用 E2B 沙箱,让智能体生成 Python 代码来计算数据图,在沙箱内运行,并返回结果。目标:体会 microVM 隔离与直接在主机上运行的区别。

练习 4(进阶):OpenAI Agents SDK + 沙箱 + Computer Use

使用 OpenAI Agents SDK(2026-04 版)整合:在沙箱中运行代码 + 使用 Computer Use 操作 GUI,构建一个小型 RPA 替代工作流。目标:体会生产级 harness 与沙箱的整合。

🎯 常用工具推荐(按用途分类)

场景推荐工具为什么
第一次接触 Computer UseAnthropic Claude Computer Use Docker quickstart官方 Docker,5 分钟上手
桌面后台工作流OpenAI Codex desktop(2026 年 4 月)不抢占光标,可并行
第一个 web 智能体(开源)browser-use86k+ 星,5 行 Python,LLM 厂商无关
GUI 解析研究(开源)Microsoft OmniParser v2基于视觉,延迟改善 60%
主力 AI 浏览器(消费 / 研究)Comet(研究)/ Atlas(ChatGPT 用户)各家智能体模式强项不同
企业 / Chrome 生态系统Gemini in ChromeAuto Browse + Skills + DLP
第一个沙箱(智能体 Python)E2BFirecracker microVM,对 Python REPL 友好
延迟敏感的沙箱Daytona< 90ms 冷启动
沙箱 + GPU(推理 / 微调)Modal唯一支持 GPU 的沙箱
生产级智能体 SDK 起点(2026-04 后)OpenAI Agents SDK内置 harness + 7 个沙箱提供商
Claude 智能体原生路线claude-agent-sdk-pythonStage 7 已介绍,Anthropic 早于 OpenAI 抽象出 harness

建议上手顺序

  1. Track A 入门:使用 Claude Computer Use Docker quickstart 跑通第一个跨应用任务(30 分钟)
  2. Track B 入门:使用 browser-use 编写 web 智能体(10 分钟)
  3. 添加沙箱隔离:接入 E2B 或 Daytona
  4. 生产级:使用 OpenAI Agents SDK 或 Claude Agent SDK 整合沙箱 + Computer Use
  5. 进阶 / 研究:训练 GUI 智能体 → OSWorld / WebArena 数据集

🎯 精选项目(模板 / SDK / 工具合集)

按用途分类,15 个项目一表搞定。

分类Project适合谁为什么推荐 / 备注
Computer Use SDKanthropics/anthropic-quickstarts⭐⭐⭐⭐⭐第一次接触 Computer Use含 Docker quickstart,5 分钟上手
OpenAI Agents SDK⭐⭐⭐⭐⭐使用 OpenAI 编写生产级智能体2026-04 内置 harness + 7 个沙箱提供商
anthropics/claude-agent-sdk-python⭐⭐⭐⭐⭐使用 Claude 编写生产级智能体Anthropic 的智能体 SDK,早于 OpenAI,与 Claude Code 同一运行时
Browser Use OSSbrowser-use/browser-use⭐⭐⭐⭐⭐开源 web 智能体第一名86k+ 星,MIT,LLM 厂商无关
microsoft/OmniParser⭐⭐⭐⭐基于视觉的 GUI 解析v2 延迟改善 60%,Apache 2.0,含 OmniTool(Windows VM 控制)
AI 浏览器(闭源 / 消费)Atlas⭐⭐⭐⭐ChatGPT 用户 + Agent ModeOpenAI 出品,macOS GA
Comet⭐⭐⭐⭐面向研究的智能体浏览器Perplexity 出品,全平台,有引用支持。⚠ Brave 注入 + Amazon 禁令
Dia⭐⭐⭐想要 AI 浏览器但不要 agent modeBrowser Company 出品(被 Atlassian 以 6.1 亿美元收购),聚焦性能
Sandbox(microVM)e2b-dev/E2B⭐⭐⭐⭐⭐智能体运行 Python 循环Firecracker microVM,模板最多,Apache 2.0
Sandbox(容器,快)Daytona⭐⭐⭐⭐延迟敏感< 90ms 冷启动,Docker 生态
Sandbox(GPU)Modal⭐⭐⭐⭐在沙箱内运行推理 / 微调唯一支持 GPU 的沙箱,serverless
Benchmark datasetxlang-ai/OSWorld⭐⭐⭐⭐⭐想训练 / 评估 Computer Use 智能体NeurIPS 2024,369 个跨 OS 任务,SOTA 76.26%
web-arena-x/webarena⭐⭐⭐⭐评估 web 智能体自托管的真实网站,OpenAI CUA 58.1%
OSU-NLP-Group/Mind2Web⭐⭐⭐⭐真实世界 web 任务数据集137 个网站 / 2350 个任务
Visual web agentilluin-tech/colpali⭐⭐⭐⭐针对 PDF / 文档的视觉 RAG直接嵌入页面图像,绕过 OCR,NeurIPS 2024

💡 建议上手路径:Track A → Anthropic quickstart + Comet;Track B → browser-use + E2B → OpenAI Agents SDK / Claude Agent SDK 整合。

✅ Stage 8 之后的自我检查

你是否能够:

  • [ ] 解释 Computer Use / Browser Use / Sandbox 三层 interface 各解决什么问题
  • [ ] 解释 microVM / 容器 / Firecracker / gVisor 4 个术语,并知道为何智能体沙箱多半选择 microVM
  • [ ] 使用 Claude Computer Use 或 OpenAI Codex desktop 跑完一个跨应用任务(练习 1)
  • [ ] 使用 browser-use 在 5 行 Python 内编写一个 web 智能体(练习 2)
  • [ ] 使用 E2B 运行智能体生成的代码,并体会与主机直接运行的差别(练习 3)
  • [ ] 解释为何通过 web 内容的 prompt injection 是新的攻击面,以及 4 个防护模式各防御什么
  • [ ] 解释 OSWorld 76.26% SOTA 数据背后的 reward-hacking 规范(为何不能盲目相信)

如果都可以 → 你已完成课程主干。选择一个特化分支,或继续看下一节 下一个前沿。

💡 下一个前沿 — Voice agents · VLA 机器人

本阶段涵盖了 desktop / browser / sandbox 三层 interface——这是 2024-2026 的主场。但智能体与世界互动还有另外两条轴线,课程将在之后处理:

Voice agents(语音界面)

VLA(Vision-Language-Action)机器人

  • RT-2(Google DeepMind)— 大型机器人 transformer
  • OpenVLA — 开源,斯坦福大学
  • π0(Physical Intelligence)— 机器人基础模型
  • Helix(Figure AI 2025)— 人形 VLA

为何不在本阶段展开:voice / VLA 是另一条模态轴线(听觉 / 物理动作),与 desktop / browser / sandbox 的属性不同;在此展开会稀释本阶段的主题,将放在 Stage 9 处理。


接下来

你已完成主干课程。下一步:

  1. 选择一个专业分支面向研究人员 / 面向开发者 / 面向教师 / 面向知识工作者 / 面向日常用户
  2. 回馈上游——browser-use / OmniParser / OSWorld 都欢迎 PR
  3. 关注 2026 年后的发展——Voice / VLA 是下一波浪潮,敬请期待 Stage 9(待规划)