外部系统及其产物
沙箱之外,是用户真实的数字世界。上一节的沙箱由 AI 助手 app 提供,影响被隔离在内部。而外部系统(本地应用、云端应用、文件夹、浏览器、用户电脑)不属于 AI 助手 app 本身,写入即真实发生。
按接入逻辑,外部系统分两类:
- 接入特定应用:通过 MCP 等接口连接某一款应用;
- 接入通用环境:借助文件系统、浏览器、用户电脑,一次覆盖一类场景。
特定应用 → 本地应用
| 接入本地 应用 |
主要接入 方式 |
写入 | 在接入的本地应用中, 完成端到端任务 |
|
|---|---|---|---|---|
| ChatGPT | 有限支持 | UI 读取+ 扩展 (少部分) |
大多数不支持*极少部分应用提供有限的写入接口,比如VS Code | 大多数不支持*极少部分应用提供有限的写入接口,比如VS Code |
| Codex | 支持 | 本地 MCP | 支持 | 支持 |
| Claude | 支持 | 本地 MCP | 支持 | 支持 |
| 豆包 | 有限支持 | UI 读取+ 扩展 (少部分) |
不支持 | 不支持 |
| Kimi | 不支持 | - | - | - |
1.Claude 和 Codex 领先,根源在于接入方式
Claude 与 Codex 通过本地 MCP接入:结构化接口,可读可写,能在应用内完成端到端任务。ChatGPT 与豆包尚未跟上,主要通过 macOS Accessibility API 接入:能力十分有限,基本只读不写,几乎未突破行动边界。Kimi 整体缺席。
特定应用 → 云端应用
| 接入云端应用 | 主要接入 方式 |
写入 | 在接入的本地应用中, 完成端到端任务 |
|
|---|---|---|---|---|
| ChatGPT | 支持 | MCP | 支持 | 支持 |
| Claude | 支持 | MCP | 支持 | 支持 |
| 豆包 | 不支持 | - | - | - |
| Kimi | 不支持*唯一例外,可通过插件WebBridge访问Chrome,但不等于通用的云端应用直接接入 | - | - | - |
1.MCP 已成行业标准,国内厂商跟进云端应用接入有难度
ChatGPT、Claude 均以 MCP 接入云端应用,支持端到端任务;豆包缺席、Kimi 有WebBridge,但也不支持直接接入。
支持 MCP 在技术上并不难,国内厂商跟进除了需要时间以外,还必须考虑国内的现实情况:
一、国外 MCP 生态无法直接、完全复用:受网络环境影响,国内的 Saas 生态和国外的有很大差别,因此不能直接、完全复用国外 MCP 生态;
二、可接的优质 SaaS 少:国内 SaaS 渗透率远低于海外,缺少明星 SaaS 产品;高频应用又多归属大厂体系,数据即壁垒,开放意愿不高;国内软件生态整体也较海外更为封闭;
三、数据存放位置难以接入:国内企业偏好本地部署与内网隔离——数据散落在本地文件与内网系统中;
四、受产品定位影响:豆包最初定位偏向于娱乐,但如今有转向专业工作的趋势。
通用环境 → 文件夹
| 以用户本地文件夹 为工作环境 |
接入方式 | 在本地文件夹中,完成 端到端任务 |
|
|---|---|---|---|
| ChatGPT | 不支持 | - | - |
| Codex | 支持 | 原生(运行方式自带) | 支持 |
| Claude | 支持 | 本地MCP、Cowork模式 | 支持 |
| 豆包 | 不支持 | - | - |
| Kimi | 支持 | work模式 | 支持 |
1.门槛最低的通用环境,Kimi 近期跟进
文件夹接入无需协议、无需第三方配合,是成本最低的外部系统。Codex 原生支持,Claude 有双路径;Kimi 近期上线 work 模式快速跟进。ChatGPT、豆包缺席。
通用环境 → 浏览器
| 入口/产品 | 在浏览器中,完成 端到端任务 |
主app端 发起 |
浏览器端 发起 |
可被第三方 agent驱动 |
|
|---|---|---|---|---|---|
| ChatGPT | Atlas | 支持 | 不支持 | 支持 | 不支持 |
| Codex | Codex Chrome Extension |
支持 | 支持 | 不支持 | 不支持 |
| Claude | Claude for Chrome | 支持 | 支持 | 支持 | 不支持 |
| 豆包*豆包有自研浏览器,但此浏览器仅支持侧边栏对当前页面提问、总结等,没有类似的自动化能力。 | - | - | - | - | - |
| Kimi | Kimi WebBridge | 支持 | 支持 | 不支持 | 支持 |
1.接入一个浏览器,等于接入所有网页端应用
绝大多数应用都有网页版,且用户的登录态多在浏览器里——无需任何厂商开放接口,AI 以用户身份操作浏览器,就相当于直接操作应用。浏览器是目前覆盖范围与可靠性结合得最好的通用环境——范围仅次于整台电脑,但网页更容易被精准操控。
通用环境 → 用户电脑
| 操控用户 电脑 |
功能名 | 机制 | 运行位置 | |
|---|---|---|---|---|
| ChatGPT | 不支持 | - | - | - |
| Codex | 支持 | computer use | GUI + 程序化控制 | 后台/独立光标,可并行(macOS) |
| 通过本地MCP接入 对应的MCP server |
- | - | ||
| Claude | 支持 | computer use | GUI + 程序化控制 | 前台,接管主光标 |
| 通过本地MCP接入 对应的MCP server |
- | - | ||
| 豆包 | 不支持 | - | - | - |
| Kimi | 不支持 | - | - | - |
1.覆盖面的顶点,难度最大,风险最高
四家中仅 Claude 与 Codex 入场,且在交互上不同:Claude 前台接管主光标,Codex 后台独立光标、可与用户并行操作——把"AI 干活时,用户能否继续用电脑"这个体验问题也解决了。另一方面,Claude 安全管控更严格,这可能制约其能力。