多模态生成

AI app 生成图片、视频、音频等非文本内容的能力，该能力主要由模型来提供。

注：Kimi在 agent 模式下可以调用工具生成图片、视频和音频，但其无自研多模态生成模型，生成能力来自外部模型。

1.豆包全有、Claude 全无，两个极端都是战略选择
豆包全部都支持，每个模态都有内容生态承接；Claude 全部不支持，其面向生产力场景，视觉产出由沙箱代码生成（SVG、图表、网页）替代，走的是另一条路线。

2.OpenAI 自研模型但缺生态出口
OpenAI 自研 Sora 2 模型，但未接入 ChatGPT，独立应用关停后视频能力处于真空——反向印证字节生态出口的价值。

3.Kimi 借外部模型补位
Agent 模式调用外部模型获得多模态生成能力，但 app 内无独立生成入口——把生成限定为 Agent 任务的子能力。