Seedance 2.0：字節跳動多模態 AI 影片生成新標竿

2026 年 2 月 12 日，字節跳動 Seed 團隊正式發布 Seedance 2.0——新一代多模態 AI 影片生成模型。它採用統一的多模態音視訊聯合生成架構，支援文字、圖片、音訊、影片四種模態輸入，在物理精準運動、角色一致性與導演級鏡頭控制等方面樹立了新標準，單次生成即可輸出高品質音畫一體內容，直擊工業級創作需求。

什麼是 Seedance 2.0

Seedance 2.0 是字節跳動目前最先進的 AI 影片生成模型。與僅支援單一文字或圖像輸入的早期方案不同，它基於統一多模態架構，可同時接受文字、圖像、音訊和影片作為輸入，並透過自然語言 @ 提及系統 精確指定每個素材的貢獻——例如從某張圖參考角色外觀、從某段影片參考運動與鏡頭、從某段音訊參考節奏與風格。這種「從提示到導演」的範式，讓創作者能夠像指揮一場拍攝一樣控制整支影片的生成過程，是業界少有的、覆蓋多模態參考與編輯的完整能力集合。

在 SeedVideoBench-2.0 綜合評測中，Seedance 2.0 在運動品質、視覺保真度、物理精度、提示詞遵循度和時間一致性等多個維度表現領先，為「可用、可控、高品質」的 AI 影片生成提供了新的參照系。

核心能力一覽

多模態參考與 @ 提及系統

使用者可同時上傳最多 9 張圖片、3 段影片、3 段音訊，再透過自然語言描述和 @ 提及，明確每一份素材用於「運動」「風格」「角色」「鏡頭」或「音訊節奏」中的哪一類。例如：用一張人物定妝照鎖定角色長相與服裝，用一段參考片提取運鏡與剪輯節奏，用一段 BGM 約束成片的音樂風格。單次生成即可完成多源參考的融合，無需分步拼貼或後期對軌。

原生音視訊聯合生成

Seedance 2.0 在單次生成中同步輸出音訊與影片，而不是「先出畫面再貼音」。支援唇形同步對話、與畫面動作匹配的音效、跟隨視覺節奏的背景音樂以及帶情緒表現力的配音，並支援雙聲道立體聲。這意味著口播、劇情片、廣告片等類型可以從一開始就按「音畫一體」來設計，無需再依賴獨立的音訊後期流程。

物理精準運動與複雜互動

在雙人花式滑冰、多人競技、器械操作等強物理約束與複雜互動場景中，模型能顯著提升動作的自然性、連貫性與物理合理性。相較前代與同類方案，在複雜互動和運動場景下的「可用率」達到業界先進水準，適合對動作真實感要求較高的廣告、體育、劇情類內容。

導演級鏡頭控制

使用者可直接用自然語言指定希區柯克變焦、環繞鏡頭、跟蹤鏡頭、移動車、手持感以及複雜編舞與轉場。也可上傳參考影片，讓模型在新場景中複現其鏡頭技巧與剪輯節奏。對非專業剪輯師而言，無需學習時間軸或關鍵幀，即可獲得接近專業級的運鏡與節奏控制。

角色與物體一致性

上傳角色或產品參考圖後，Seedance 2.0 能在所有鏡頭、機位與光線變化中保持面部特徵、服裝、產品 Logo 等細節一致。多角色、多鏡頭的群戲或廣告片，無需逐鏡修臉或手動跟蹤，即可保持身份與造型的穩定，有利於品牌露出與敘事連貫。

影片編輯與延長

支援對已有影片進行定向修改：替換指定片段、角色或動作，或按提示「接著拍」生成連續鏡頭，實現影片延長與續寫。適合在已有成片基礎上做版本迭代、補拍或 A/B 測試，而無需從頭重生成整片。

適用場景與使用入口

Seedance 2.0 现已可在立刻使用Seedance2 体验多模态输入、原生音画一体与导演级控制。

小結

Seedance 2.0 透過統一多模態架構、原生音視訊聯合生成、物理精準運動、角色一致性與導演級鏡頭控制，將 AI 影片生成從「單點能力」推向「全流程可控的工業級創作」。無論是品牌方、製作團隊還是個人創作者，都可以在現有工作流中接入這一能力，用更少的步驟產出更高一致性與專業度的音視訊內容。隨著即夢等產品持續整合與開放，Seedance 2.0 有望成為多模態影片創作的重要基礎設施之一。