思考

整体判断

1.模型层与应用层都很重要,能力 = 模型层 × 应用层
本项目的分析框架将 AI 助手的能力拆为模型层 × 应用层,分开评估。模型层和应用层都很重要,并且两层是乘法关系,任何一层的短板都会成为整体能力的瓶颈。

模型层仍然是硬实力。LM Arena 的数据显示,Anthropic 与 OpenAI 在语言模型类榜单上稳居第一梯队,与月之暗面、字节跳动拉开明显差距;benchmark 上虽然 K2.6 在部分榜单逼近闭源旗舰,但在 HLE 等高难度测试中差距依然显著。模型层的梯队分化并未消失,它仍然是产品体验的底层决定因素。

应用层同样不可忽视。同一个模型搭配不同的应用层,用户体验可以截然不同——本文的应用层分析已经表明,四家产品在信息边界和行动边界上的差异显著。MCP 生态、浏览器接入、computer use、记忆层级、多模态生成等维度上的分化,正在成为产品间体感差异的重要来源。




2.应用层能力有明显分化
在应用层突破信息边界与行动边界方面,四家产品呈现出明显的差异。

Claude 与 Codex 已完成从 0 到 1。两者在信息边界(比如:记忆系统、实时搜索、用户私有数据的接入)和行动边界(比如:MCP 生态、浏览器扩展、computer use)的各个维度上都已经有了解决方案。它们之间的竞争已不在功能的有无,而在功能的质量上。另一方面,ChatGPT在对应的功能上有不少的缺席,这或许也是ChatGPT要和Codex合并的重要原因。

Kimi 正在快速补齐。WebBridge、work 模式 等在短时间内密集上线,两个边界的多个维度正被逐一覆盖。但在直连用户应用、记忆系统以及 computer use 等上仍有明显缺口,尚未完全跨过从 0 到 1 的门槛。

豆包最初的重心可能不在这个方向,如今处于转型中。在应用层突破两个边界的维度上,豆包的缺位最为明显——外部系统的接入能力薄弱、没有浏览器扩展、没有 computer use。它最初的投入重心可能放在多模态生成上,背靠字节的内容生态,有清晰的承接出口。不过,从最近关于即将推出订阅计划的官方声明来看,豆包向生产力工具转型的意图已经非常明确。

Claude
Codex
已完成从 0 到 1
竞争已在功能质量
ChatGPT 多项应用层能力空缺
即将与 Codex 合并
Kimi 正在快速补齐
豆包 转型中

当前应用层能力的分化格局




3.Agentic AI 已成行业共识,专业工作是最清晰的落地方向
从对话走向 agent,已不再是某一家的判断,而是整个行业的共识。Claude 率先走通了这条路:Anthropic 80%的收入来自企业客户[1],Claude Code 单品 ARR 超$2.5B[2]——专业用户愿意为能真正完成任务的 AI 付费,商业模式已经验证。本文分析的其他三家产品也不约而同走向同一方向——Codex 拓展定位后与 ChatGPT 合并、Kimi work 模式、豆包要发布专业版。

突破信息和行动边界对 agentic 能力至关重要。Agent 的核心在于:能自主获取信息(信息边界)+ 能自主执行动作(行动边界)。不突破这两个边界,模型再强也只能被困在对话框内。




4.从代码到专业工作—— agentic AI 的趋势
编码是 AI 对专业工作冲击最大的领域。代码天然适合 AI:大量优质的训练数据,输入输出都是文本,有明确的验证信号(测试通过/编译成功),开发者又是离 AI 最近的用户群体——coding agent 因此成为 agentic AI 最先跑通的方向。

但 AI agent 的价值不止于编写代码。让模型写代码的那些底层能力——规划步骤、操作文件、调用工具、自主纠错——和完成其他专业工作所需的能力是相似的。 并且:专业知识工作日常事务的很大一部分本身就在电脑上完成——检索案例、起草合同、搭建财务模型、处理数据表格、制作汇报材料。底层能力相通,工作介质又相同。 当 AI agent 的能力逐渐成熟以后,自然向更广的知识工作方向演变。产品演进路径已经验证了这一判断:Claude Code → Cowork,Codex官方定位的拓展,Kimi → work 模式——三家走了相同的路,从服务开发者到服务所有专业工作者。




5.完成端到端的任务极具价值——它是迈向更深层次自动化的关键一步
用户只给目标,AI 完成从理解需求到交付结果的全部中间步骤——这就是端到端任务。端到端的任务要求模型具有足够的能力,可以长时间思考、规划步骤、自主纠错等。另一方面,端到端的任务要求应用层能突破信息边界,让模型可以获取到所有必要的相关信息,再突破行动边界将结果写入真实世界。

Claude

1.观察:Claude 的崛起

两年前还被视为 OpenAI 追赶者的 Anthropic,如今已与 OpenAI 并肩甚至反超。




2. Claude 崛起的原因

2.1 能力领先:模型层与应用层的双重领先——从本项目出发分析
在模型层,Claude 的旗舰模型甚至可以被认为是第一名。在所有收录 Anthropic 模型的 LM Arena 榜单中,Anthropic 在每一个榜单的厂商排名和其旗舰模型在每一个榜单的模型排名都是第一名;benchmark 上,Claude 旗舰模型在各项测试中稳定在前几位。

在应用层,本文分析的信息边界与行动边界的各个维度上,Claude 都已有解决方案,且多项关键功能是由 Anthropic 率先推出的——computer use,通过 MCP 接入应用,Claude in Chrome 浏览器扩展。

2.2 清晰的定位,被市场验证的路线选择,成功的商业模式
清晰的定位——专注于服务专业知识工作者。Claude 没有研发任何的多模态生成模型,应用层中也没有任何的多模态生成功能。这不是能力的缺失,而是战略取舍。

被市场验证的路线选择——实现路径、应用场景、产品架构,引领趋势
a.实现路径:接入外部应用,Claude 选择 MCP 这一开放协议,而非像 ChatGPT 一样,依赖 macOS Accessibility API 等特定手段构建 Work with Apps 功能;在浏览器接入上,Claude 选择 Chrome 扩展直接嵌入用户真实的浏览环境,而非虚拟浏览器;Claude 推出 Skill,赋予 AI 特定领域的工作规范。每一个选择都指向同一个原则——通用、开放、可定制,MCP、skill等都由其提出,现在已成行业规范。

b.应用场景:Claude Code 率先在开发者群体中验证了 agentic AI 的价值,再通过 Cowork 扩展到所有知识工作者——先在最容易验证效果的场景跑通,再向更广的专业工作扩散。Claude Code → Cowork 的路径被竞品复刻:Codex 从编码工具拓展定位,Kimi 推出 work 模式。

c.产品架构:Claude 将 chat、Cowork、Claude Code 集成在同一个桌面端中,构建了统一的超级入口,这种一体化设计避免了能力分散在多个独立产品中。

成功的商业模式:在 AI 助手市场,不靠用户规模和流量补贴,靠产品能力和专业用户的付费意愿,同样可以建立一家万亿美元估值的公司。




3.潜在风险与挑战
C 端用户规模与 ChatGPT 存在量级差距。 Claude 的个人用户月活约 3000 万,ChatGPT 周活 9 亿[6]——虽然对 Claude 的使用更多地集中在 API 和云平台渠道,但即便如此,C 端规模的差距是客观存在的。

收入高度集中于企业大客户。 企业客户贡献约 80% 收入(据 Reuters 报道),百万美元级大客户的数量仍在快速增长。这意味着高质量的收入结构,但也意味着少数客户的变动可能带来显著波动。

MCP 和 Skill 都是开放标准,先发优势不等于持久壁垒。 两者均由 Anthropic 率先提出并推广,在 app 中, Claude 的支持做得最好,但 MCP与 skill 并没有帮助 Claude 建立起持久的壁垒——ChatGPT 已快速跟进 MCP 和 Skill,后来者的接入成本趋近于零。

ChatGPT

1.优势:模型能力、用户规模和研发资源
模型层处于第一梯队。 在语言模型上,GPT-5.5 在 benchmark 和 LM Arena 上的表现稳居前列;在多模态能力上,OpenAI 优势明显——GPT Image 2 的图片生成能力是四家中最强的, Sora 2 模型的视频生成能力也处于第一梯队。

领先的用户规模可能是最难被复制的优势。 ChatGPT 周活 9 亿,全球品牌认知度最高,大量知名企业在使用 ChatGPT,用户习惯与数据积累都构成转换成本。即使 ChatGPT 应用层能力现在暂时落后,但庞大的用户基数也意味着:一旦能力补齐,用户规模会立刻转化为竞争优势。

OpenAI 的研发资源为行业一流。 顶尖的人才密度、充足的资金,以及 Codex 在短时间内补齐应用层能力所展现的执行力,都说明 OpenAI 的研发能力、组织能力仍然一流。




2.短板:ChatGPT 应用层的关键缺位
从本文的分析框架看,ChatGPT 在应用层突破信息和行动边界的多个关键维度上明显落后于 Claude——而 Codex 在这些维度上快速跟进,这也是 ChatGPT 与 Codex 走向合并的重要原因。但产品的分裂已经造成了代价:Codex 才是真正具备 agent 能力和生产力价值的产品,大量用户却留在功能更弱的 ChatGPT 上——更好的能力没有触达更多的用户。




3.隐忧:多个早期方案效果不佳

与此同时,OpenAI 在多个关键节点上呈现出跟随而非引领的姿态,比如:




4.ChatGPT 和 Codex 合并后的潜力不容低估
Codex 在应用层两边界的各维度上,已经快速跟上 Claude—— Claude 支持的功能,Codex基本上都支持。一旦合并完成,ChatGPT 将同时拥有9亿用户的规模和 Codex 的 agent 能力——这个组合的潜力不容低估。经历过一段波折后,OpenAI 依然具有强大的竞争力。

ChatGPT
≈ 900M / week
≈ 180× the users
Codex
≈ 5M / week

ChatGPT 周活约为 Codex 的 180 倍,但两者披露时间不同(ChatGPT 2026.2.28,Codex 2026.6.2)。条形长度为示意,Codex 实际占比远小于图示。

ChatGPT 与 Codex 周活用户量对比

豆包

1.独特优势:流量、内容生态与多模态生成的闭环——豆包前期成功的核心逻辑
豆包是四家中最独特的产品。

字节系的流量是基础。豆包借助抖音等平台的导流优势,迅速成为国内最大的 AI 应用。这种深度绑定甚至让豆包成为了一个形象 IP,频繁出现在抖音等平台上。

在此基础上,豆包的多模态生成能力与字节生态形成了相互作用。字节跳动拥有四家中唯一且极为丰富的内容分发与消费平台——抖音、剪映、红果短剧、汽水音乐等,而豆包也拥有四家中最全面的多模态生成能力——图片、视频、音乐。AI 生成内容,生态负责分发,生态给豆包带来流量、豆包又以 AI 能力反哺生态——三者构成了其他三家都不具备的闭环。ChatGPT 研发 Sora 2 模型,最后却又关停 Sora 应用,正是因为其不具备和字节跳动一样成熟的内容消费生态——有生成能力,却没有承接出口。




2.战略转向:转型信号清晰,但尚未落地
豆包最初的产品定位偏向内容与娱乐,但转型的意图已经非常明确。2026年5、6月,豆包官方宣布即将推出订阅方案以及"豆包专业版"——覆盖软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等专业工作场景。

但战略声明与产品现实之间仍有落差。截至目前,豆包在应用层突破两个边界的维度上尚未出现实质性的补齐动作——专业版所承诺的能力,还没有在产品中明确体现。 Agentic AI 已经成为 AI 通用助手最清晰的演进方向,这也是豆包必须迈出的一步。

另一方面,在本分析的实测中,已经可以观察到专业版的内测迹象,预计豆包将会迎来一轮密集更新,并且变化幅度较大。




3.当前差距:豆包在模型层和应用层都面临挑战
模型层方面,豆包的语言模型处于第二梯队的后半部分。本文的 benchmark 数据和 LM Arena 排名均显示,seed 2.0 与 Anthropic、OpenAI 的旗舰模型存在明显差距,与 k 2.6 也有一定的差距。

应用层方面,豆包在突破信息和行动边界的维度中缺席最多。缺乏成熟的外部应用接入方案、落后的记忆系统层级设计、没有浏览器扩展、没有 computer use 等——豆包对专业工作的支持非常有限。当然,字节的生态也会帮助豆包扩展应用层,但现在还没发生。如果字节将飞书、抖音、剪映等深度打通,这种生态内整合的价值可能不亚于 MCP ——但这条路只有拥有生态的大厂才能走。

能力 = 模型层 × 应用层。当两层都存在短板时,乘法效应意味着综合体验的差距被进一步放大。

Kimi

1.战略方向最接近 Claude
月之暗面和Anthropic 一样,都是独立的 AI 公司——没有大厂生态依托,没有流量入口,完全靠模型能力和产品体验立足。他们的战略高度相似,聚焦专业知识工作,强调"生产力场景优先",将资源集中在语言模型和 agent 能力上,不做多模态生成。




2.模型层:全球第二梯队,K2.5/K2.6 证明其研发能力
从本文的 benchmark 和 LM Arena 数据看,K2.6 与 Anthropic、OpenAI 的旗舰模型仍有差距,但在第二梯队中明显处于领先位置。更值得关注的是 K2.5 以来的爆发:月之暗面估值从 2025 年底约 $4.3B 升至 2026 年 5 月约 $20B,并于 6 月被报道正寻求以 $30B 估值融资[8]。这说明 K2.5/K2.6 已显著提升其商业表现与资本市场认可度。杨植麟受邀在 GTC 演讲,是唯一的中国独立大模型公司创始人。在 OpenAI 与 Anthropic 密集迭代、国内大厂和其他 AI 公司步步紧逼的双重压力下,K2.5/K2.6 的国际存在感强,敢于和国际顶尖模型比较,证明了其强大的模型研发能力。

应用层:快速补齐,服务知识工作
WebBridge、work 模式等在短时间内密集上线,信息和行动边界的多个维度正在被逐一覆盖,快速跟上 Claude 和 Codex 的步伐。Kimi 的应用层建设方向始终围绕专业工作场景,独特的"专业数据库"功能——接入同花顺、天眼查等专业数据源——也是针对国内知识工作者的实际需求,扩展信息边界的巧妙选择。但诚实来看,在直连外部应用、记忆系统和 computer use 等维度上,仍有明显缺口。




3.现实困境:中国的数字生态可能阻碍其在应用层突破信息和行动边界

对独立 AI 公司而言,这是一道绕不开的难题。




4.有困难,但中国专业知识工作者的市场足够大,也确实需要一个本土的 AI 助手
Claude 做得再好,也不可能进入中国市场。国内的专业知识工作者需要一个真正服务于本土场景的 AI 助手——贴近国内的工作流、适配国内的数据环境、解决国内用户的实际问题。Kimi 目前已经具备了竞争的基础:模型层有 K2.5/K2.6 的实力支撑且仍在持续迭代,应用层有专业数据库、work 模式、WebBridge等的跟进。在这个赛道上,它已经占据了一个不错的身位。

数据来源

  1. Reuters:《Anthropic aims to nearly triple annualized revenue in 2026》
  2. Anthropic:《Anthropic raises $30 billion in Series G funding》
  3. Anthropic:《Anthropic raises $65B in Series H funding》
  4. OpenAI:《OpenAI raises $122 billion to accelerate the next phase of AI》
  5. Anthropic:Series F、Google与Broadcom合作、Series H公告
  6. TechCrunch:《ChatGPT reaches 900M weekly active users》
  7. OpenAI:《Codex is becoming a productivity tool for everyone》
  8. TechCrunch、财新:月之暗面融资与估值