入选和分析逻辑

为什么分析AI通用助手？

典型代表：ChatGPT的发布引爆了这一轮AI浪潮，ai通用助手是众多ai产品中最具代表性的品类

核心战场：用户规模最大、竞争最激烈

超级入口：集搜索、写作、编程、创作等于一体，正在成为下一代通用工具的入口

为什么选择这四个产品？

ChatGPT：行业奠基产品，周活近9亿，无可争议的领军者

注：OpenAI 将通用助手能力分散于 ChatGPT 与 Codex 两个应用，ChatGPT 上有 Codex 的入口，且官方已宣布合并。本文以ChatGPT为主，但也标注Codex的独有能力作为补充。

Claude：最强力的ChatGPT挑战者，企业端增速惊人，深受专业用户喜爱

豆包：背靠字节跳动生态，中国下载量和月活双第一的AI对话产品

Kimi：明星ai独角兽，坚持开源路线，实力强劲

如何分析？

AI 助手的能力 = 模型层 × 应用层

分层分析：AI 助手的能力 = 模型层 × 应用层
模型是智能的来源，应用层是智能的放大器——两者是乘法而非加法关系。同一个模型搭配不同的应用层，用户体验可以截然不同：Claude 的模型接入 MCP 和浏览器扩展后，能在用户的真实工作环境中完成任务；同一个模型如果只有一个对话框，就只能生成文本。反过来，应用层再完善，模型能力不足，也无法保障任务的完成质量。任何一层的短板都会拖垮整体——这就是乘法的含义。因此，本文将两层分开评估。

两个边界——信息边界和行动边界
这个拆分直接来自模型的原生局限。大语言模型天然有两个边界：信息边界——模型只有参数化知识，没有长期记忆、用户私有信息和实时信息；行动边界——模型只能输出 token 序列，不具备真实的执行能力。应用层的核心价值之一，就是帮助模型突破这两个边界——从"只能对话"走向"能完成任务"。

分析说明

1.本文所分析的产品与模型更新频繁，具体功能、数据乃至部分结论难免存在时效局限。但本文的核心价值在于分析框架与背后的分析、思考方式，而非对某一时刻产品状态的快照记录。

2.本分析以 app 的 mac 桌面端为主，辅助参考同期的 web 端，app 的桌面端具体版本和订阅方案如下：

展开版本详情

产品	版本	订阅方案
ChatGPT	1.2026.119 (1780053722)	Plus $20/月
Codex	26.602.71036	Plus $20/月
Claude	1.11847.5 (9692f0)	Pro $20/月
豆包	v2.13.8（2.13.8）	免费版（尚未正式推出付费版）
Kimi	3.0.15 (3.0.15)	Allegretto ¥199/月

3.本分析以实测为主，测试时间窗口为2026年5月初至2026年6月8日，同时参考官方文档、权威第三方分析

4.本文可能存在以下局限性：

展开详情

时效、app版本等局限性，此类app、模型更新极快，且app不同版本之间存在细微差距，本次实测以mac桌面端为主
此类app都为闭源软件，部分对于技术细节的推断可能存在局限性
benchmark和arena数据的最新快照时间在2026年6月5日左右，此类数据在不同时间点会有小幅度的波动
以及其他局限性

5.Kimi Claw 不纳入分析：它是月之暗面对开源项目 OpenClaw 的托管，并非自研。其他厂商也有同类托管产品（如字节火山引擎的 ArkClaw），为保证选品标准一致，托管类产品一律不纳入。

6.Claude Code CLI、扣子/Trae 等独立产品均不纳入分析。