多模态生成

AI app 生成图片、视频、音频等非文本内容的能力,该能力主要由模型来提供。

多模态生成

生成图片 生成视频 生成音频
ChatGPT 原生支持 不支持 不支持
Claude 不支持 不支持 不支持
豆包 原生支持 原生支持 原生支持(播客+音乐)
Kimi 有限支持 有限支持 有限支持

注:Kimi在 agent 模式下可以调用工具生成图片、视频和音频,但其无自研多模态生成模型,生成能力来自外部模型。

1.豆包全有、Claude 全无,两个极端都是战略选择
豆包全部都支持,每个模态都有内容生态承接;Claude 全部不支持,其面向生产力场景,视觉产出由沙箱代码生成(SVG、图表、网页)替代,走的是另一条路线。

2.OpenAI 自研模型但缺生态出口
OpenAI 自研 Sora 2 模型,但未接入 ChatGPT,独立应用关停后视频能力处于真空——反向印证字节生态出口的价值。

3.Kimi 借外部模型补位
Agent 模式调用外部模型获得多模态生成能力,但 app 内无独立生成入口——把生成限定为 Agent 任务的子能力。