多模态生成
AI app 生成图片、视频、音频等非文本内容的能力,该能力主要由模型来提供。
多模态生成
| 生成图片 | 生成视频 | 生成音频 | |
|---|---|---|---|
| ChatGPT | 原生支持 | 不支持 | 不支持 |
| Claude | 不支持 | 不支持 | 不支持 |
| 豆包 | 原生支持 | 原生支持 | 原生支持(播客+音乐) |
| Kimi | 有限支持 | 有限支持 | 有限支持 |
注:Kimi在 agent 模式下可以调用工具生成图片、视频和音频,但其无自研多模态生成模型,生成能力来自外部模型。
1.豆包全有、Claude 全无,两个极端都是战略选择
豆包全部都支持,每个模态都有内容生态承接;Claude 全部不支持,其面向生产力场景,视觉产出由沙箱代码生成(SVG、图表、网页)替代,走的是另一条路线。
2.OpenAI 自研模型但缺生态出口
OpenAI 自研 Sora 2 模型,但未接入 ChatGPT,独立应用关停后视频能力处于真空——反向印证字节生态出口的价值。
3.Kimi 借外部模型补位
Agent 模式调用外部模型获得多模态生成能力,但 app 内无独立生成入口——把生成限定为 Agent 任务的子能力。