外部系统及其产物

沙箱之外,是用户真实的数字世界。上一节的沙箱由 AI 助手 app 提供,影响被隔离在内部。而外部系统(本地应用、云端应用、文件夹、浏览器、用户电脑)不属于 AI 助手 app 本身,写入即真实发生。

按接入逻辑,外部系统分两类:

特定应用 → 本地应用

接入本地
应用
主要接入
方式
写入 在接入的本地应用中,
完成端到端任务
ChatGPT 有限支持 UI 读取+ 扩展
(少部分)
大多数不支持*极少部分应用提供有限的写入接口,比如VS Code 大多数不支持*极少部分应用提供有限的写入接口,比如VS Code
Codex 支持 本地 MCP 支持 支持
Claude 支持 本地 MCP 支持 支持
豆包 有限支持 UI 读取+ 扩展
(少部分)
不支持 不支持
Kimi 不支持 - - -

1.Claude 和 Codex 领先,根源在于接入方式
Claude 与 Codex 通过本地 MCP接入:结构化接口,可读可写,能在应用内完成端到端任务。ChatGPT 与豆包尚未跟上,主要通过 macOS Accessibility API 接入:能力十分有限,基本只读不写,几乎未突破行动边界。Kimi 整体缺席。

特定应用 → 云端应用

接入云端应用 主要接入
方式
写入 在接入的本地应用中,
完成端到端任务
ChatGPT 支持 MCP 支持 支持
Claude 支持 MCP 支持 支持
豆包 不支持 - - -
Kimi 不支持*唯一例外,可通过插件WebBridge访问Chrome,但不等于通用的云端应用直接接入 - - -

1.MCP 已成行业标准,国内厂商跟进云端应用接入有难度
ChatGPT、Claude 均以 MCP 接入云端应用,支持端到端任务;豆包缺席、Kimi 有WebBridge,但也不支持直接接入。 支持 MCP 在技术上并不难,国内厂商跟进除了需要时间以外,还必须考虑国内的现实情况:

一、国外 MCP 生态无法直接、完全复用:受网络环境影响,国内的 Saas 生态和国外的有很大差别,因此不能直接、完全复用国外 MCP 生态;
二、可接的优质 SaaS 少:国内 SaaS 渗透率远低于海外,缺少明星 SaaS 产品;高频应用又多归属大厂体系,数据即壁垒,开放意愿不高;国内软件生态整体也较海外更为封闭;
三、数据存放位置难以接入:国内企业偏好本地部署与内网隔离——数据散落在本地文件与内网系统中;
四、受产品定位影响:豆包最初定位偏向于娱乐,但如今有转向专业工作的趋势。

通用环境 → 文件夹

以用户本地文件夹
为工作环境
接入方式 在本地文件夹中,完成
端到端任务
ChatGPT 不支持 - -
Codex 支持 原生(运行方式自带) 支持
Claude 支持 本地MCP、Cowork模式 支持
豆包 不支持 - -
Kimi 支持 work模式 支持

1.门槛最低的通用环境,Kimi 近期跟进
文件夹接入无需协议、无需第三方配合,是成本最低的外部系统。Codex 原生支持,Claude 有双路径;Kimi 近期上线 work 模式快速跟进。ChatGPT、豆包缺席。

通用环境 → 浏览器

入口/产品 在浏览器中,完成
端到端任务
主app端
发起
浏览器端
发起
可被第三方
agent驱动
ChatGPT Atlas 支持 不支持 支持 不支持
Codex Codex Chrome
Extension
支持 支持 不支持 不支持
Claude Claude for Chrome 支持 支持 支持 不支持
豆包*豆包有自研浏览器,但此浏览器仅支持侧边栏对当前页面提问、总结等,没有类似的自动化能力。 - - - - -
Kimi Kimi WebBridge 支持 支持 不支持 支持

1.接入一个浏览器,等于接入所有网页端应用
绝大多数应用都有网页版,且用户的登录态多在浏览器里——无需任何厂商开放接口,AI 以用户身份操作浏览器,就相当于直接操作应用。浏览器是目前覆盖范围与可靠性结合得最好的通用环境——范围仅次于整台电脑,但网页更容易被精准操控。

通用环境 → 用户电脑

操控用户
电脑
功能名 机制 运行位置
ChatGPT 不支持 - - -
Codex 支持 computer use GUI + 程序化控制 后台/独立光标,可并行(macOS)
通过本地MCP接入
对应的MCP server
- -
Claude 支持 computer use GUI + 程序化控制 前台,接管主光标
通过本地MCP接入
对应的MCP server
- -
豆包 不支持 - - -
Kimi 不支持 - - -

1.覆盖面的顶点,难度最大,风险最高
四家中仅 Claude 与 Codex 入场,且在交互上不同:Claude 前台接管主光标,Codex 后台独立光标、可与用户并行操作——把"AI 干活时,用户能否继续用电脑"这个体验问题也解决了。另一方面,Claude 安全管控更严格,这可能制约其能力。