Seedance 2.0 正式上线

Seedance 2.0：导演级 AI 视频生成器

字节跳动旗舰 AI 视频模型。支持图像/视频/音频多模态参考、导演级指令遵循、长镜头叙事一致与物理规律模拟，指令即所得，将创意变为专业级视频。

立即体验 Seedance 2.0 📚 获取 Seedance 2.0 使用指南

Seedance 2.0 核心功能

字节跳动旗舰 AI 视频模型，打破传统 AI 视频「抽卡」式的不确定性。凭借强大的语义理解与物理规律模拟，实现「指令即所得」的导演级精准控制。

全能多模态参考

打破单一输入限制，支持图像（定风格/角色）、视频（定动作/运镜）、音频（定节奏/口型）的混合输入。模型能精准提取各参考源特征并融合，例如根据一张照片和一段音频，生成角色精准对口型的演唱 MV。

导演级指令遵循

解决 AI 视频「听不懂人话」的痛点。Seedance 2.0 能一次性理解并执行复杂复合指令，无需反复生成筛选。无论是复杂交互动作还是特定运镜要求，都能精准呈现，大幅降低废片率。

长镜头与叙事一致性

在生成多镜头或续集视频时，模型能保持极高的人物和场景一致性。配合分镜工作流，可制作包含对话、剧情推进的连续短剧，而不用担心角色「换脸」或场景突变。

物理规律与特效模拟

攻克 AI 视频常见的「物理幻觉」问题。在处理大规模战斗、物体碰撞、流体运动等复杂场景时，Seedance 2.0 表现出对真实物理世界的深刻理解，动作流畅自然，不再有违和的穿模或扭曲。

精美案例

电影级大片呈现，可商业化视频制作。

人物一致性

保留动作与运镜，替换主体。适合角色替换、IP 改编。

商品一致性

多图融合，产品结构与材质可分别控制，电商拍摄实用。

舞蹈动作复刻

动作 + 运镜双重复刻，复刻画面与节奏。

武打动作复刻

多视频参考拆分使用，动作与镜头语言分别控制。

商业片拍摄复刻

参考运镜与剪辑节奏，复刻经典广告风格。

视频延长

「接着拍」能力，光线与动作自然衔接。

视频编辑（颠覆剧情）

按时间轴改写局部剧情，测试剪辑与叙事控制。

剪辑字幕特效

粒子与文字特效控制，可制作片头动画。

你可以创作什么

从图生视频、文生视频到口型同步与短剧，Seedance 2.0 支持专业级 AI 视频工作流。

图生视频

上传一张图片，用文字描述风格与动作，即可生成 4–15 秒、角色与场景一致的视频片段。

文生视频

用文字描述画面，模型按指令生成视频，包括运镜与动作，指令即所得。

口型同步与 MV

结合人物图与音频，生成说话或唱歌视频，口型与表情精准匹配。

多镜头短剧

通过分镜工作流将多个镜头串联成连贯短剧或广告，角色与叙事一致。

运镜与动作

指定推拉摇移与动作方向，模型按你的镜头语言执行。

音画同步

可选音画同步生成，支持背景音乐、环境音效多轨，节奏与氛围更可控。

Seedance 2.0 一览

4–15秒

单段时长

9+3+3

图+视频+音频输入

业界领先

指令遵循度

工业可用

专业生产场景

如何使用 Seedance 2.0

简单三步即可从创意到成片：选择模型、描述或上传参考、生成并下载。

选择模型

进入「图生视频」或「文生视频」页面，在模型下拉菜单中选择 Seedance 2.0。

输入提示与参数

填写提示词或上传图片/音频，设置时长（4–15 秒）、比例，按需开启音画同步。

生成与下载

点击「生成」，等待导演级成片渲染完成，即可下载或分享。

三步开始创作

在视频生成器中选择 Seedance 2.0，然后输入你想要的画面描述或上传图片（可选音频/视频）。设置时长（最高 15 秒）、比例，以及是否开启「音画同步」。点击生成，等待渲染完成后即可下载或分享。

常见工作流

图片 + 文字描述风格与动作
图片 + 音频做口型同步或 MV
纯文字生成完整画面
多镜头分镜制作短剧

应用场景

Seedance 2.0 面向影视、广告、电商、短视频等对质量与可控性有要求的专业内容制作。

短剧与剧情

制作包含对话与剧情推进的短剧，多镜头下角色与场景保持一致。

广告与宣传

用单张图片或脚本生成风格与动作精准的产品、品牌视频。

电商

将商品图转化为风格统一的短视频，用于 listing 与社媒。

MV 与音乐

人物图 + 音乐生成口型同步的演唱或表演视频。

游戏与社交

为预告、UGC、互动内容生成角色与场景动画。

UGC 与教程

一张人物图 + 一段音频即可生成口播、教程类视频。

常见问题

Seedance 2.0 是字节跳动（即梦平台）推出的新一代高性能 AI 视频模型，以极高的指令遵循度、多模态输入能力和物理规律理解著称，支持最长 15 秒、最高 2K 分辨率，原生音画同步，旨在解决 AI 视频的随机性问题。

单次最多 12 个参考文件：最多 9 张图（角色/风格/场景）+ 3 段视频（动作/运镜）+ 3 段音频（节奏/口型），再配合文字叙述。单段视频 4–15 秒，分辨率最高 2K。4 秒高清约 10–15 秒出片，2K 电影级约 45–60 秒。

相比竞品，Seedance 2.0 已进入「工业可用」阶段，原生音画联合生成、多模态参考（图+音频+视频混合输入）和口型同步优势明显，更适合剧情短剧、MV 和需要角色一致性的内容。

建议从「图片+音频」开始：上传一张人物图和一段语音，快速生成说话或唱歌视频，体验口型同步与「复活」效果。也可用文生视频，按「主体+动作+场景+风格+情绪」五元素写清提示词。

使用五元素公式：主体 + 动作 + 场景 + 风格 + 情绪，描述要具体，避免「一个很酷的视频」这类模糊说法。多镜头可用「镜头 1：… 镜头 2：…」分段描述。每段视频聚焦 1–2 个清晰动作效果更好。

使用图生视频并上传清晰的参考图（正面、光线充足）。在提示词里写清外貌特征。若平台支持，用 @参考图锁定角色。先锁定参考再写提示词，采用单变量迭代可提升成片稳定性。

可先降低分辨率或时长以加快生成。检查提示词是否有矛盾指令，尽量简化或拆成多段。用「避免：…」等负面提示说明不想要的元素（如动态模糊、杂乱背景）。非高峰时段有时更快。