2026 年 2 月 12 日,字節跳動 Seed 團隊正式發布 Seedance 2.0——新一代多模態 AI 影片生成模型。它採用統一的多模態音視訊聯合生成架構,支援文字、圖片、音訊、影片四種模態輸入,在物理精準運動、角色一致性與導演級鏡頭控制等方面樹立了新標準,單次生成即可輸出高品質音畫一體內容,直擊工業級創作需求。

什麼是 Seedance 2.0

Seedance 2.0 是字節跳動目前最先進的 AI 影片生成模型。與僅支援單一文字或圖像輸入的早期方案不同,它基於統一多模態架構,可同時接受文字、圖像、音訊和影片作為輸入,並透過自然語言 @ 提及系統 精確指定每個素材的貢獻——例如從某張圖參考角色外觀、從某段影片參考運動與鏡頭、從某段音訊參考節奏與風格。這種「從提示到導演」的範式,讓創作者能夠像指揮一場拍攝一樣控制整支影片的生成過程,是業界少有的、覆蓋多模態參考與編輯的完整能力集合。

SeedVideoBench-2.0 綜合評測中,Seedance 2.0 在運動品質、視覺保真度、物理精度、提示詞遵循度和時間一致性等多個維度表現領先,為「可用、可控、高品質」的 AI 影片生成提供了新的參照系。

核心能力一覽

多模態參考與 @ 提及系統

使用者可同時上傳最多 9 張圖片、3 段影片、3 段音訊,再透過自然語言描述和 @ 提及,明確每一份素材用於「運動」「風格」「角色」「鏡頭」或「音訊節奏」中的哪一類。例如:用一張人物定妝照鎖定角色長相與服裝,用一段參考片提取運鏡與剪輯節奏,用一段 BGM 約束成片的音樂風格。單次生成即可完成多源參考的融合,無需分步拼貼或後期對軌。

原生音視訊聯合生成

Seedance 2.0 在單次生成中同步輸出音訊與影片,而不是「先出畫面再貼音」。支援唇形同步對話、與畫面動作匹配的音效、跟隨視覺節奏的背景音樂以及帶情緒表現力的配音,並支援雙聲道立體聲。這意味著口播、劇情片、廣告片等類型可以從一開始就按「音畫一體」來設計,無需再依賴獨立的音訊後期流程。

物理精準運動與複雜互動

在雙人花式滑冰、多人競技、器械操作等強物理約束與複雜互動場景中,模型能顯著提升動作的自然性、連貫性與物理合理性。相較前代與同類方案,在複雜互動和運動場景下的「可用率」達到業界先進水準,適合對動作真實感要求較高的廣告、體育、劇情類內容。

導演級鏡頭控制

使用者可直接用自然語言指定希區柯克變焦、環繞鏡頭、跟蹤鏡頭、移動車、手持感以及複雜編舞與轉場。也可上傳參考影片,讓模型在新場景中複現其鏡頭技巧與剪輯節奏。對非專業剪輯師而言,無需學習時間軸或關鍵幀,即可獲得接近專業級的運鏡與節奏控制。

角色與物體一致性

上傳角色或產品參考圖後,Seedance 2.0 能在所有鏡頭、機位與光線變化中保持面部特徵、服裝、產品 Logo 等細節一致。多角色、多鏡頭的群戲或廣告片,無需逐鏡修臉或手動跟蹤,即可保持身份與造型的穩定,有利於品牌露出與敘事連貫。

影片編輯與延長

支援對已有影片進行定向修改:替換指定片段、角色或動作,或按提示「接著拍」生成連續鏡頭,實現影片延長與續寫。適合在已有成片基礎上做版本迭代、補拍或 A/B 測試,而無需從頭重生成整片。

適用場景與使用入口

Seedance 2.0 现已可在 立刻使用Seedance2 体验多模态输入、原生音画一体与导演级控制。

小結

Seedance 2.0 透過統一多模態架構、原生音視訊聯合生成、物理精準運動、角色一致性與導演級鏡頭控制,將 AI 影片生成從「單點能力」推向「全流程可控的工業級創作」。無論是品牌方、製作團隊還是個人創作者,都可以在現有工作流中接入這一能力,用更少的步驟產出更高一致性與專業度的音視訊內容。隨著即夢等產品持續整合與開放,Seedance 2.0 有望成為多模態影片創作的重要基礎設施之一。