Seedance 2.0: เกณฑ์ใหม่ของ ByteDance สำหรับการสร้างวิดีโอ AI แบบมัลติโมดัล

เมื่อวันที่ 12 กุมภาพันธ์ 2026 ทีม Seed ของ ByteDance เปิดตัว Seedance 2.0 อย่างเป็นทางการ—โมเดลสร้างวิดีโอ AI แบบมัลติโมดัลรุ่นใหม่ ใช้สถาปัตยกรรมการสร้างภาพ-เสียงร่วมมัลติโมดัลแบบรวม รองรับข้อความ รูปภาพ เสียง และวิดีโอเป็นอินพุต และกำหนดมาตรฐานใหม่ด้านการเคลื่อนไหวที่แม่นยำทางฟิสิกส์ ความสม่ำเสมอของตัวละคร และการควบคุมช็อตระดับผู้กำกับ การสร้างครั้งเดียวสามารถส่งออกเนื้อหาภาพ-เสียงคุณภาพสูงสำหรับความต้องการสร้างระดับอุตสาหกรรม

Seedance 2.0 คืออะไร

Seedance 2.0 คือโมเดลสร้างวิดีโอ AI ที่ก้าวหน้าที่สุดของ ByteDance ในปัจจุบัน ต่างจากแนวทางก่อนหน้าที่รับเฉพาะข้อความหรือรูปภาพ เป็นแบบ สถาปัตยกรรมมัลติโมดัลรวม ที่รับข้อความ รูปภาพ เสียง และวิดีโอพร้อมกัน และใช้ ระบบกล่าวถึง @ ด้วยภาษาธรรมชาติเพื่อระบุบทบาทของแต่ละแอสเซ็ต—เช่น อ้างอิงลักษณะตัวละครจากรูป การเคลื่อนไหวและกล้องจากวิดีโอ จังหวะและสไตล์จากเสียง แนวคิด “จากพรอมป์ถึงผู้กำกับ” นี้ให้ครีเอเตอร์ควบคุมการสร้างทั้งหมดเหมือนกำกับการถ่ายทำ พร้อมชุดความสามารถอ้างอิงและตัดต่อมัลติโมดัลที่หายากในอุตสาหกรรม

ในเบนช์มาร์ก SeedVideoBench-2.0 Seedance 2.0 นำในคุณภาพการเคลื่อนไหว ความเที่ยงตรงของภาพ ความแม่นยำทางฟิสิกส์ การยึดตามพรอมป์ และความสม่ำเสมอเชิงเวลา เป็นตัวอ้างอิงใหม่สำหรับการสร้างวิดีโอ AI ที่ “ใช้ได้ ควบคุมได้ คุณภาพสูง”

สรุปความสามารถหลัก

อ้างอิงมัลติโมดัลและระบบ @

ผู้ใช้สามารถอัปโหลด ได้สูงสุด 9 รูป 3 วิดีโอ และ 3 คลิปเสียง พร้อมกัน จากนั้นใช้คำอธิบายภาษาธรรมชาติและการกล่าวถึง @ เพื่อระบุว่าแต่ละแอสเซ็ตใช้สำหรับ “การเคลื่อนไหว” “สไตล์” “ตัวละคร” “กล้อง” หรือ “จังหวะเสียง” การสร้างครั้งเดียวรวมอ้างอิงหลายแหล่งโดยไม่ต้องประกอบทีละขั้นหรือซิงค์หลัง

การสร้างภาพ-เสียงร่วมแบบเนทีฟ

Seedance 2.0 ส่งออกเสียงและวิดีโอพร้อมกันในการสร้างครั้งเดียว ไม่ใช่ “ภาพก่อน แล้วค่อยติดเสียง” รองรับบทสนทนาไลป์ซิงก์ เอฟเฟกต์เสียงที่สอดคล้องกับการกระทำบนจอ เพลงพื้นหลังตามจังหวะภาพ และเสียงบรรยายที่มีการแสดงออก พร้อมสเตอริโอ รูปแบบอย่าง talking head เรื่องเล่าหรือโฆษณาสามารถออกแบบ “ภาพ-เสียงหนึ่งเดียว” ตั้งแต่ต้นโดยไม่พึ่งเวิร์กโฟลว์เสียงหลังผลิตแยก

การเคลื่อนไหวแม่นยำทางฟิสิกส์และอันตรกิริยาที่ซับซ้อน

ในฉาก ข้อจำกัดทางฟิสิกส์เข้มและอันตรกิริยาซับซ้อน เช่น สเก็ตคู่ การแข่งขันหลายคน และการใช้งานอุปกรณ์ โมเดลเพิ่มความเป็นธรรมชาติ ความต่อเนื่อง และความสมเหตุสมผลทางฟิสิกส์ของการเคลื่อนไหวอย่างมาก เมื่อเทียบรุ่นก่อนและโซลูชันคล้ายกัน “อัตราการใช้ได้” ในฉากอันตรกิริยาและการเคลื่อนไหวที่ซับซ้อนถึงระดับนำอุตสาหกรรม เหมาะกับโฆษณา กีฬา และเนื้อหาเรื่องเล่าที่ต้องการความสมจริงของการกระทำสูง

การควบคุมช็อตระดับผู้กำกับ

ผู้ใช้สามารถระบุ ซูมฮิตช์ค็อก ออร์บิต ติดตาม ดอลลี ความรู้สึกถือกล้อง และคอรีโอกราฟีกับทรานซิชันที่ซับซ้อนโดยตรงด้วย ภาษาธรรมชาติ หรืออัปโหลดวิดีโออ้างอิงให้โมเดลสร้างเทคนิคกล้องและจังหวะตัดต่อใหม่ในฉากใหม่

ความสม่ำเสมอของตัวละครและวัตถุ

หลังอัปโหลดรูปอ้างอิงตัวละครหรือผลิตภัณฑ์ Seedance 2.0 รักษาลักษณะใบหน้า เสื้อผ้า และโลโก้ผลิตภัณฑ์ให้สม่ำเสมอใน ทุกช็อต มุมและแสง สำหรับฉากหลายตัวละคร หลายช็อตหรือโฆษณา ตัวตนและรูปลักษณ์คงที่โดยไม่ต้องแก้ใบหน้าต่อช็อตหรือติดตามด้วยมือ

การตัดต่อและขยายวิดีโอ

รองรับ การแก้ไขแบบกำหนดเป้า บนวิดีโอที่มีอยู่: แทนที่เซกเมนต์ ตัวละครหรือการกระทำที่ระบุ หรือ “ถ่ายต่อ” ตามพรอมป์เพื่อสร้างช็อตต่อเนื่อง ขยายและดำเนินวิดีโอต่อ เหมาะกับการทำซ้ำเวอร์ชัน ถ่ายเสริมหรือ A/B เทสต์บนงานตัดที่มีโดยไม่ต้องสร้างทั้งชิ้นใหม่

สถานการณ์ใช้และจุดเข้า

Seedance 2.0 เหมาะกับ โฆษณาทางการค้า VFX ภาพยนตร์ วิดีโออีคอมเมิร์ซ CG เกม วิดีโอสั้น และคำอธิบายการศึกษา ลดต้นทุนและรอบจากไอเดียถึงตัดสุดท้ายอย่างมาก มีให้ใช้บน Jiemeng เว็บ แอป Doubao และศูนย์ประสบการณ์ Volcano Ark

สรุป

ด้วยสถาปัตยกรรมมัลติโมดัลรวม การสร้างภาพ-เสียงร่วมแบบเนทีฟ การเคลื่อนไหวแม่นยำทางฟิสิกส์ ความสม่ำเสมอของตัวละคร และการควบคุมช็อตระดับผู้กำกับ Seedance 2.0 ย้ายการสร้างวิดีโอ AI จาก “ความสามารถจุดเดียว” ไปสู่ “การสร้างระดับอุตสาหกรรมที่ควบคุมได้ทั้งไปป์ไลน์” แบรนด์ ทีมผลิต และครีเอเตอร์รายบุคคลสามารถต่อความสามารถนี้เข้ากับเวิร์กโฟลว์ที่มีอยู่เพื่อผลิตเนื้อหาภาพ-เสียงที่สม่ำเสมอและมืออาชีพมากขึ้นด้วยขั้นตอนน้อยลง Seedance 2.0 มีแนวโน้มจะเป็นโครงสร้างพื้นฐานสำคัญอย่างหนึ่งของการสร้างวิดีโอแบบมัลติโมดัล