全能多模态参考
打破单一输入限制,支持图像(定风格/角色)、视频(定动作/运镜)、音频(定节奏/口型)的混合输入。模型能精准提取各参考源特征并融合,例如根据一张照片和一段音频,生成角色精准对口型的演唱 MV。
Seedance 2.0 正式上线
字节跳动旗舰 AI 视频模型。支持图像/视频/音频多模态参考、导演级指令遵循、长镜头叙事一致与物理规律模拟,指令即所得,将创意变为专业级视频。
字节跳动旗舰 AI 视频模型,打破传统 AI 视频「抽卡」式的不确定性。凭借强大的语义理解与物理规律模拟,实现「指令即所得」的导演级精准控制。
打破单一输入限制,支持图像(定风格/角色)、视频(定动作/运镜)、音频(定节奏/口型)的混合输入。模型能精准提取各参考源特征并融合,例如根据一张照片和一段音频,生成角色精准对口型的演唱 MV。
解决 AI 视频「听不懂人话」的痛点。Seedance 2.0 能一次性理解并执行复杂复合指令,无需反复生成筛选。无论是复杂交互动作还是特定运镜要求,都能精准呈现,大幅降低废片率。
在生成多镜头或续集视频时,模型能保持极高的人物和场景一致性。配合分镜工作流,可制作包含对话、剧情推进的连续短剧,而不用担心角色「换脸」或场景突变。
攻克 AI 视频常见的「物理幻觉」问题。在处理大规模战斗、物体碰撞、流体运动等复杂场景时,Seedance 2.0 表现出对真实物理世界的深刻理解,动作流畅自然,不再有违和的穿模或扭曲。
电影级大片呈现,可商业化视频制作。
保留动作与运镜,替换主体。适合角色替换、IP 改编。
多图融合,产品结构与材质可分别控制,电商拍摄实用。
动作 + 运镜双重复刻,复刻画面与节奏。
多视频参考拆分使用,动作与镜头语言分别控制。
参考运镜与剪辑节奏,复刻经典广告风格。
「接着拍」能力,光线与动作自然衔接。
按时间轴改写局部剧情,测试剪辑与叙事控制。
粒子与文字特效控制,可制作片头动画。
从图生视频、文生视频到口型同步与短剧,Seedance 2.0 支持专业级 AI 视频工作流。
上传一张图片,用文字描述风格与动作,即可生成 4–15 秒、角色与场景一致的视频片段。
用文字描述画面,模型按指令生成视频,包括运镜与动作,指令即所得。
结合人物图与音频,生成说话或唱歌视频,口型与表情精准匹配。
通过分镜工作流将多个镜头串联成连贯短剧或广告,角色与叙事一致。
指定推拉摇移与动作方向,模型按你的镜头语言执行。
可选音画同步生成,支持背景音乐、环境音效多轨,节奏与氛围更可控。
简单三步即可从创意到成片:选择模型、描述或上传参考、生成并下载。
进入「图生视频」或「文生视频」页面,在模型下拉菜单中选择 Seedance 2.0。
填写提示词或上传图片/音频,设置时长(4–15 秒)、比例,按需开启音画同步。
点击「生成」,等待导演级成片渲染完成,即可下载或分享。
在视频生成器中选择 Seedance 2.0,然后输入你想要的画面描述或上传图片(可选音频/视频)。设置时长(最高 15 秒)、比例,以及是否开启「音画同步」。点击生成,等待渲染完成后即可下载或分享。
Seedance 2.0 面向影视、广告、电商、短视频等对质量与可控性有要求的专业内容制作。
制作包含对话与剧情推进的短剧,多镜头下角色与场景保持一致。
用单张图片或脚本生成风格与动作精准的产品、品牌视频。
将商品图转化为风格统一的短视频,用于 listing 与社媒。
人物图 + 音乐生成口型同步的演唱或表演视频。
为预告、UGC、互动内容生成角色与场景动画。
一张人物图 + 一段音频即可生成口播、教程类视频。
Seedance 2.0 是字节跳动(即梦平台)推出的新一代高性能 AI 视频模型,以极高的指令遵循度、多模态输入能力和物理规律理解著称,支持最长 15 秒、最高 2K 分辨率,原生音画同步,旨在解决 AI 视频的随机性问题。
单次最多 12 个参考文件:最多 9 张图(角色/风格/场景)+ 3 段视频(动作/运镜)+ 3 段音频(节奏/口型),再配合文字叙述。单段视频 4–15 秒,分辨率最高 2K。4 秒高清约 10–15 秒出片,2K 电影级约 45–60 秒。
相比竞品,Seedance 2.0 已进入「工业可用」阶段,原生音画联合生成、多模态参考(图+音频+视频混合输入)和口型同步优势明显,更适合剧情短剧、MV 和需要角色一致性的内容。
建议从「图片+音频」开始:上传一张人物图和一段语音,快速生成说话或唱歌视频,体验口型同步与「复活」效果。也可用文生视频,按「主体+动作+场景+风格+情绪」五元素写清提示词。
使用五元素公式:主体 + 动作 + 场景 + 风格 + 情绪,描述要具体,避免「一个很酷的视频」这类模糊说法。多镜头可用「镜头 1:… 镜头 2:…」分段描述。每段视频聚焦 1–2 个清晰动作效果更好。
使用图生视频并上传清晰的参考图(正面、光线充足)。在提示词里写清外貌特征。若平台支持,用 @参考图 锁定角色。先锁定参考再写提示词,采用单变量迭代可提升成片稳定性。
可先降低分辨率或时长以加快生成。检查提示词是否有矛盾指令,尽量简化或拆成多段。用「避免:…」等负面提示说明不想要的元素(如动态模糊、杂乱背景)。非高峰时段有时更快。