入选和分析逻辑

为什么分析AI通用助手?

典型代表:ChatGPT的发布引爆了这一轮AI浪潮,ai通用助手是众多ai产品中最具代表性的品类

核心战场:用户规模最大、竞争最激烈

超级入口:集搜索、写作、编程、创作等于一体,正在成为下一代通用工具的入口

为什么选择这四个产品?

ChatGPT:行业奠基产品,周活近9亿,无可争议的领军者

注:OpenAI 将通用助手能力分散于 ChatGPT 与 Codex 两个应用,ChatGPT 上有 Codex 的入口,且官方已宣布合并。本文以ChatGPT为主,但也标注Codex的独有能力作为补充。

Claude:最强力的ChatGPT挑战者,企业端增速惊人,深受专业用户喜爱

豆包:背靠字节跳动生态,中国下载量和月活双第一的AI对话产品

Kimi:明星ai独角兽,坚持开源路线,实力强劲

如何分析?

AI 助手的能力 = 模型层 × 应用层

分层分析:AI 助手的能力 = 模型层 × 应用层
模型是智能的来源,应用层是智能的放大器——两者是乘法而非加法关系。同一个模型搭配不同的应用层,用户体验可以截然不同:Claude 的模型接入 MCP 和浏览器扩展后,能在用户的真实工作环境中完成任务;同一个模型如果只有一个对话框,就只能生成文本。反过来,应用层再完善,模型能力不足,也无法保障任务的完成质量。任何一层的短板都会拖垮整体——这就是乘法的含义。因此,本文将两层分开评估。

两个边界——信息边界和行动边界
这个拆分直接来自模型的原生局限。大语言模型天然有两个边界:信息边界——模型只有参数化知识,没有长期记忆、用户私有信息和实时信息;行动边界——模型只能输出 token 序列,不具备真实的执行能力。应用层的核心价值之一,就是帮助模型突破这两个边界——从"只能对话"走向"能完成任务"。

分析说明

1.本文所分析的产品与模型更新频繁,具体功能、数据乃至部分结论难免存在时效局限。但本文的核心价值在于分析框架与背后的分析、思考方式,而非对某一时刻产品状态的快照记录。

2.本分析以 app 的 mac 桌面端为主,辅助参考同期的 web 端,app 的桌面端具体版本和订阅方案如下:

展开版本详情
产品 版本 订阅方案
ChatGPT1.2026.119 (1780053722)Plus $20/月
Codex26.602.71036Plus $20/月
Claude1.11847.5 (9692f0)Pro $20/月
豆包v2.13.8(2.13.8)免费版(尚未正式推出付费版)
Kimi3.0.15 (3.0.15)Allegretto ¥199/月

3.本分析以实测为主,测试时间窗口为2026年5月初至2026年6月8日,同时参考官方文档、权威第三方分析

4.本文可能存在以下局限性:

展开详情
  • 时效、app版本等局限性,此类app、模型更新极快,且app不同版本之间存在细微差距,本次实测以mac桌面端为主
  • 此类app都为闭源软件,部分对于技术细节的推断可能存在局限性
  • benchmark和arena数据的最新快照时间在2026年6月5日左右,此类数据在不同时间点会有小幅度的波动
  • 以及其他局限性

5.Kimi Claw 不纳入分析:它是月之暗面对开源项目 OpenClaw 的托管,并非自研。其他厂商也有同类托管产品(如字节火山引擎的 ArkClaw),为保证选品标准一致,托管类产品一律不纳入。

6.Claude Code CLI、扣子/Trae 等独立产品均不纳入分析。