入选和分析逻辑
为什么分析AI通用助手?
典型代表:ChatGPT的发布引爆了这一轮AI浪潮,ai通用助手是众多ai产品中最具代表性的品类
核心战场:用户规模最大、竞争最激烈
超级入口:集搜索、写作、编程、创作等于一体,正在成为下一代通用工具的入口
为什么选择这四个产品?
ChatGPT:行业奠基产品,周活近9亿,无可争议的领军者
注:OpenAI 将通用助手能力分散于 ChatGPT 与 Codex 两个应用,ChatGPT 上有 Codex 的入口,且官方已宣布合并。本文以ChatGPT为主,但也标注Codex的独有能力作为补充。
Claude:最强力的ChatGPT挑战者,企业端增速惊人,深受专业用户喜爱
豆包:背靠字节跳动生态,中国下载量和月活双第一的AI对话产品
Kimi:明星ai独角兽,坚持开源路线,实力强劲
如何分析?
分层分析:AI 助手的能力 = 模型层 × 应用层
模型是智能的来源,应用层是智能的放大器——两者是乘法而非加法关系。同一个模型搭配不同的应用层,用户体验可以截然不同:Claude 的模型接入 MCP 和浏览器扩展后,能在用户的真实工作环境中完成任务;同一个模型如果只有一个对话框,就只能生成文本。反过来,应用层再完善,模型能力不足,也无法保障任务的完成质量。任何一层的短板都会拖垮整体——这就是乘法的含义。因此,本文将两层分开评估。
两个边界——信息边界和行动边界
这个拆分直接来自模型的原生局限。大语言模型天然有两个边界:信息边界——模型只有参数化知识,没有长期记忆、用户私有信息和实时信息;行动边界——模型只能输出 token 序列,不具备真实的执行能力。应用层的核心价值之一,就是帮助模型突破这两个边界——从"只能对话"走向"能完成任务"。
分析说明
1.本文所分析的产品与模型更新频繁,具体功能、数据乃至部分结论难免存在时效局限。但本文的核心价值在于分析框架与背后的分析、思考方式,而非对某一时刻产品状态的快照记录。
2.本分析以 app 的 mac 桌面端为主,辅助参考同期的 web 端,app 的桌面端具体版本和订阅方案如下:
展开版本详情
| 产品 | 版本 | 订阅方案 |
|---|---|---|
| ChatGPT | 1.2026.119 (1780053722) | Plus $20/月 |
| Codex | 26.602.71036 | Plus $20/月 |
| Claude | 1.11847.5 (9692f0) | Pro $20/月 |
| 豆包 | v2.13.8(2.13.8) | 免费版(尚未正式推出付费版) |
| Kimi | 3.0.15 (3.0.15) | Allegretto ¥199/月 |
3.本分析以实测为主,测试时间窗口为2026年5月初至2026年6月8日,同时参考官方文档、权威第三方分析
4.本文可能存在以下局限性:
展开详情
- 时效、app版本等局限性,此类app、模型更新极快,且app不同版本之间存在细微差距,本次实测以mac桌面端为主
- 此类app都为闭源软件,部分对于技术细节的推断可能存在局限性
- benchmark和arena数据的最新快照时间在2026年6月5日左右,此类数据在不同时间点会有小幅度的波动
- 以及其他局限性
5.Kimi Claw 不纳入分析:它是月之暗面对开源项目 OpenClaw 的托管,并非自研。其他厂商也有同类托管产品(如字节火山引擎的 ArkClaw),为保证选品标准一致,托管类产品一律不纳入。
6.Claude Code CLI、扣子/Trae 等独立产品均不纳入分析。