في 12 فبراير 2026، أطلق فريق Seed في بايت دانس رسمياً Seedance 2.0—نموذج الجيل التالي لتوليد الفيديو بالذكاء الاصطناعي متعدد الأنماط. يستخدم بنية توليد صوتي-مرئي مشتركة متعددة الأنماط موحدة تدعم النص والصورة والصوت والفيديو كمدخلات، ويحدد معايير جديدة في الحركة الدقيقة فيزيائياً واتساق الشخصيات والتحكم باللقطات بمستوى المخرج. توليد واحد ينتج محتوى صوتي-مرئي عالي الجودة لاحتياجات إنشاء بمستوى صناعي.

ما هو Seedance 2.0

Seedance 2.0 هو نموذج توليد الفيديو بالذكاء الاصطناعي الأكثر تقدماً لدى بايت دانس حتى الآن. بخلاف النهج السابقة التي تقبل النص أو الصورة فقط، فهو مبني على بنية متعددة الأنماط موحدة تقبل النص والصور والصوت والفيديو، وتستخدم نظام الإشارة @ باللغة الطبيعية لتحديد دور كل أصل بدقة—مثل مظهر الشخصية من صورة، والحركة والكاميرا من فيديو، والإيقاع والأسلوب من الصوت. هذا النموذج «من التوجيه إلى المخرج» يمكّن المنشئين من التحكم بكل عملية التوليد كما لو كانوا يوجهون تصويراً، مقدماً مجموعة كاملة ونادرة من المراجع متعددة الأنماط والتحرير.

في معيار SeedVideoBench-2.0، يتقدم Seedance 2.0 في جودة الحركة والدقة البصرية والدقة الفيزيائية والالتزام بالتوجيه والاتساق الزمني، مقدماً مرجعاً جديداً لتوليد فيديو بالذكاء الاصطناعي «قابل للاستخدام وقابل للتحكم وعالي الجودة».

القدرات الأساسية

المراجع متعددة الأنماط ونظام @

يمكن للمستخدمين رفع حتى 9 صور و3 فيديوهات و3 مقاطع صوتية دفعة واحدة، ثم استخدام اللغة الطبيعية والإشارات @ للإشارة إلى ما إذا كان كل أصل يُستخدم لـ«الحركة» أو «الأسلوب» أو «الشخصية» أو «الكاميرا» أو «إيقاع الصوت». توليد واحد يدمج مراجع من مصادر متعددة دون تركيب خطوة بخطوة أو مزامنة لاحقة.

التوليد الصوتي-المرئي المشترك الأصلي

Seedance 2.0 يُخرج الصوت والفيديو معاً في توليد واحد، وليس «فيديو أولاً ثم الصوت». يدعم الحوار المتزامن مع الشفاه، والمؤثرات الصوتية المطابقة للحركة على الشاشة، والموسيقى التصويرية التي تتبع الإيقاع البصري والصوت المعبّر، مع دعم ستريو. يمكن تصميم صيغ مثل الحديث المباشر أو السرد أو الإعلانات «صوتي-مرئي واحد» من البداية دون الاعتماد على سير عمل صوتي منفصل لما بعد الإنتاج.

الحركة الدقيقة فيزيائياً والتفاعل المعقد

في مشاهد الفيزياء القوية والتفاعل المعقد (التزلج الثنائي، المنافسة متعددة الأشخاص، تشغيل المعدات)، يحسّن النموذج بشكل ملحوظ طبيعية وتماسك ومعقولية فيزيائية الحركة. «قابلية الاستخدام» في مشاهد التفاعل والحركة المعقدة تصل إلى مستوى رائد في الصناعة.

التحكم باللقطات بمستوى المخرج

يمكن للمستخدمين تحديد زوم هيتشكوك، والمدار، والتتبع، والدولي، والإحساس باليد بالإضافة إلى الرقص المعقد والانتقالات مباشرة بـاللغة الطبيعية، أو رفع فيديو مرجعي ليُعيد النموذج إنتاج تقنيات الكاميرا وإيقاع المونتاج في مشاهد جديدة.

اتساق الشخصيات والأشياء

بعد رفع صور مرجعية للشخصية أو المنتج، يحافظ Seedance 2.0 على الملامح الوجهية والملابس والشعارات متسقة عبر جميع اللقطات والزوايا والإضاءة. تبقى الهوية والمظهر مستقرين دون تصحيح الوجه لكل لقطة أو تتبع يدوي.

تحرير الفيديو وتمديده

يدعم تحريراً موجهاً على الفيديو الموجود: استبدال مقاطع أو شخصيات أو أفعال محددة، أو «مواصلة التصوير» عبر التوجيه لتوليد لقطات متتالية وتمديد أو متابعة الفيديو.

حالات الاستخدام والوصول

Seedance 2.0 مناسب لـالإعلانات التجارية، ومؤثرات الفيلم، وفيديو التجارة الإلكترونية، والرسوميات للألعاب، والفيديو القصير والشرح التعليمي، ويقلل التكلفة والدورة من الفكرة إلى القص النهائي بشكل كبير. متاح على Jiemeng ويب، وتطبيق Doubao، ومركز تجربة Volcano Ark.

الخلاصة

ببنائه متعددة الأنماط الموحدة، وتوليده الصوتي-المرئي المشترك الأصلي، وحركته الدقيقة فيزيائياً، واتساق الشخصيات، والتحكم باللقطات بمستوى المخرج، ينتقل Seedance 2.0 بتوليد الفيديو بالذكاء الاصطناعي من «قدرة نقطية» إلى «إنشاء بمستوى صناعي قابل للتحكم عبر خط الأنابيب بالكامل». يمكن للعلامات وفرق الإنتاج والمنشئين الأفراد توصيل هذه القدرة بسير العمل الحالي لإنتاج محتوى صوتي-مرئي أكثر اتساقاً واحترافية بخطوات أقل. Seedance 2.0 مرشح لأن يصبح جزءاً أساسياً من بنية إنشاء الفيديو متعدد الأنماط.