Seedance 2.0: Chuẩn mới của ByteDance cho tạo video AI đa phương thức

Ngày 12 tháng 2 năm 2026, đội Seed ByteDance chính thức ra mắt Seedance 2.0—mô hình tạo video AI đa phương thức thế hệ mới. Nó dùng kiến trúc tạo âm-thanh-hình ảnh kết hợp đa phương thức thống nhất, hỗ trợ văn bản, hình ảnh, âm thanh và video làm đầu vào, và đặt chuẩn mới về chuyển động chính xác vật lý, nhất quán nhân vật và điều khiển góc quay cấp đạo diễn. Một lần tạo có thể xuất nội dung âm-thanh-hình ảnh chất lượng cao cho nhu cầu sáng tạo cấp công nghiệp.

Seedance 2.0 là gì

Seedance 2.0 là mô hình tạo video AI tiên tiến nhất của ByteDance hiện nay. Khác với cách tiếp cận trước chỉ nhận đầu vào văn bản hoặc hình ảnh đơn lẻ, nó xây trên kiến trúc đa phương thức thống nhất có thể nhận đồng thời văn bản, hình ảnh, âm thanh và video, và dùng hệ thống đề cập @ bằng ngôn ngữ tự nhiên để chỉ rõ đóng góp của từng tài liệu—ví dụ tham chiếu ngoại hình nhân vật từ ảnh, chuyển động và máy quay từ video, nhịp và phong cách từ âm thanh. Mô hình “từ gợi ý đến đạo diễn” này giúp người sáng tạo điều khiển toàn bộ quá trình tạo video như chỉ đạo một buổi quay, mang lại bộ năng lực đầy đủ tham chiếu và chỉnh sửa đa phương thức hiếm có trong ngành.

Trong benchmark SeedVideoBench-2.0, Seedance 2.0 dẫn đầu về chất lượng chuyển động, độ trung thực hình ảnh, độ chính xác vật lý, tuân thủ gợi ý và tính nhất quán thời gian, tạo ra chuẩn tham chiếu mới cho tạo video AI “dùng được, điều khiển được, chất lượng cao”.

Tóm tắt năng lực cốt lõi

Tham chiếu đa phương thức và hệ thống @

Người dùng có thể tải lên tối đa 9 ảnh, 3 video và 3 clip âm thanh cùng lúc, rồi dùng mô tả ngôn ngữ tự nhiên và đề cập @ để nêu rõ từng tài liệu dùng cho “chuyển động”, “phong cách”, “nhân vật”, “máy quay” hay “nhịp âm thanh”. Một lần tạo hợp nhất tham chiếu đa nguồn không cần dựng từng bước hay đồng bộ hậu kỳ.

Tạo âm-thanh-video kết hợp gốc

Seedance 2.0 xuất âm thanh và video cùng lúc trong một lần tạo, chứ không phải “hình trước, dán tiếng sau”. Hỗ trợ đối thoại đồng bộ môi, hiệu ứng âm thanh khớp hành động trên màn hình, nhạc nền theo nhịp hình ảnh và lồng tiếng có biểu cảm, với stereo. Các thể loại như nói trực tiếp, phim truyện hay quảng cáo có thể được thiết kế “âm-thanh-hình ảnh một thể” ngay từ đầu mà không phụ thuộc quy trình hậu kỳ âm thanh riêng.

Chuyển động chính xác vật lý và tương tác phức tạp

Trong các cảnh ràng buộc vật lý mạnh và tương tác phức tạp như trượt băng đôi, thi đấu nhiều người và vận hành thiết bị, mô hình cải thiện rõ rệt tính tự nhiên, mạch lạc và hợp lý vật lý của chuyển động. So với thế hệ trước và giải pháp tương tự, “tỷ lệ dùng được” trong cảnh tương tác và chuyển động phức tạp đạt mức tiên tiến ngành, phù hợp nội dung quảng cáo, thể thao, truyện đòi hỏi độ chân thực hành động cao.

Điều khiển góc quay cấp đạo diễn

Người dùng có thể chỉ định trực tiếp bằng ngôn ngữ tự nhiên zoom Hitchcock, quỹ đạo, theo dõi, xe máy quay, cảm giác cầm tay cùng biên đạo và chuyển cảnh phức tạp. Cũng có thể tải video tham chiếu để mô hình tái hiện kỹ thuật máy quay và nhịp dựng trong cảnh mới. Người không chuyên dựng phim có thể đạt điều khiển máy quay và nhịp gần chuyên nghiệp mà không cần học timeline hay keyframe.

Nhất quán nhân vật và vật thể

Sau khi tải ảnh tham chiếu nhân vật hoặc sản phẩm, Seedance 2.0 duy trì đặc điểm khuôn mặt, trang phục và logo sản phẩm nhất quán trên mọi góc quay, vị trí máy và thay đổi ánh sáng. Với cảnh nhiều nhân vật, nhiều góc hoặc quảng cáo, không cần sửa mặt từng cảnh hay theo dõi thủ công vẫn giữ ổn định nhân dạng và ngoại hình, có lợi cho lộ diện thương hiệu và mạch truyện.

Chỉnh sửa và kéo dài video

Hỗ trợ sửa đổi có hướng trên video có sẵn: thay đoạn, nhân vật hoặc hành động chỉ định, hoặc theo gợi ý “quay tiếp” để tạo cảnh liên tiếp, kéo dài và nối tiếp video. Phù hợp lặp phiên bản, quay bổ sung hay A/B test trên bản đã có mà không cần tạo lại toàn bộ từ đầu.

Kịch bản dùng và truy cập

Seedance 2.0 phù hợp rộng rãi quảng cáo thương mại, VFX điện ảnh, video thương mại điện tử, CG game, video ngắn và giải thích giáo dục, giảm đáng kể chi phí và chu kỳ từ ý tưởng đến bản cắt cuối. Hiện có trên Jiemeng web, ứng dụng Doubao và trung tâm trải nghiệm Volcano Ark.

Tóm tắt

Với kiến trúc đa phương thức thống nhất, tạo âm-thanh-video kết hợp gốc, chuyển động chính xác vật lý, nhất quán nhân vật và điều khiển góc quay cấp đạo diễn, Seedance 2.0 đưa tạo video AI từ “năng lực đơn điểm” sang “sáng tạo cấp công nghiệp có thể điều khiển toàn pipeline”. Thương hiệu, đội sản xuất và người sáng tạo cá nhân đều có thể gắn năng lực này vào quy trình hiện có để tạo nội dung âm-thanh-hình ảnh nhất quán và chuyên nghiệp hơn với ít bước hơn. Seedance 2.0 có triển vọng trở thành một trong những nền tảng quan trọng của sáng tạo video đa phương thức.