در ۱۲ فوریه ۲۰۲۶ تیم Seed بایتدنس بهطور رسمی Seedance 2.0 را منتشر کرد—مدل تولید ویدیوی هوش مصنوعی چندوجهی نسل جدید. از معماری تولید مشترک صدا-تصویر چندوجهی یکپارچه استفاده میکند که متن، تصویر، صدا و ویدیو را بهعنوان ورودی پشتیبانی میکند و استانداردهای جدیدی در حرکت دقیق فیزیکی، یکنواختی شخصیت و کنترل نما در سطح کارگردان تعیین میکند. یک تولید واحد محتوای صدا-تصویر باکیفیت برای نیازهای خلق درجه صنعتی خروجی میدهد.
Seedance 2.0 چیست
Seedance 2.0 پیشرفتهترین مدل تولید ویدیوی هوش مصنوعی بایتدنس تا به امروز است. برخلاف رویکردهای قبلی که فقط متن یا تصویر میپذیرفتند، بر معماری چندوجهی یکپارچه ساخته شده که متن، تصاویر، صدا و ویدیو را میپذیرد و از سیستم اشاره @ به زبان طبیعی برای تعیین دقیق نقش هر دارایی استفاده میکند—مثلاً ظاهر شخصیت از یک تصویر، حرکت و دوربین از یک ویدیو، ریتم و سبک از صدا. این پارادایم «از پرامپت تا کارگردان» به سازندگان امکان میدهد کل تولید را مثل کارگردانی فیلمبرداری کنترل کنند و مجموعه کامل و کمیابی از ارجاع و ویرایش چندوجهی ارائه میدهد.
در معیار SeedVideoBench-2.0 Seedance 2.0 در کیفیت حرکت، وفاداری بصری، دقت فیزیکی، پایبندی به پرامپت و یکنواختی زمانی پیشتاز است و مرجع جدیدی برای تولید ویدیوی هوش مصنوعی «قابل استفاده، قابل کنترل و باکیفیت» فراهم میکند.
خلاصه قابلیتهای اصلی
ارجاع چندوجهی و سیستم @
کاربران میتوانند تا ۹ تصویر، ۳ ویدیو و ۳ کلیپ صوتی یکجا آپلود کنند و با زبان طبیعی و اشاره @ مشخص کنند هر دارایی برای «حرکت»، «سبک»، «شخصیت»، «دوربین» یا «ریتم صوتی» استفاده میشود. یک تولید ارجاعات چندمنبعی را بدون ترکیب گامبهگام یا همگامسازی پس از تولید ادغام میکند.
تولید مشترک صدا-ویدیوی بومی
Seedance 2.0 صدا و ویدیو را در یک تولید با هم خروجی میدهد، نه «اول تصویر بعد صدا». دیالوگ همگام با لب، جلوههای صوتی هماهنگ با اکشن روی صفحه، موسیقی پسزمینه متناسب با ریتم بصری و گویندگی بااحساس را با استریو پشتیبانی میکند. فرمتهایی مثل صحبت مستقیم، روایت یا تبلیغات را میتوان از همان ابتدا «صدا-تصویر یکپارچه» طراحی کرد بدون وابستگی به گردش کار صدای پس از تولید جداگانه.
حرکت دقیق فیزیکی و تعامل پیچیده
در صحنههای فیزیک قوی و تعامل پیچیده (اسکیت جفتی، رقابت چندنفره، کار با تجهیزات) مدل بهطور محسوس طبیعیبودن، انسجام و معقولیت فیزیکی حرکت را بهبود میبخشد. «قابلیت استفاده» در صحنههای تعامل و حرکت پیچیده به سطح پیشرو صنعت میرسد.
کنترل نما در سطح کارگردان
کاربران میتوانند زوم هیچکاک، مدار، ردیابی، دالی، حس دستی و کورئوگرافی و انتقالهای پیچیده را مستقیماً به زبان طبیعی مشخص کنند یا ویدیوی مرجع آپلود کنند تا مدل تکنیکهای دوربین و ریتم تدوین آن را در صحنههای جدید بازتولید کند.
یکنواختی شخصیت و شیء
پس از آپلود تصاویر مرجع شخصیت یا محصول، Seedance 2.0 ویژگیهای چهره، لباس و لوگو را در همه نماها، زاویهها و نور یکنواخت نگه میدارد. هویت و ظاهر بدون روتوش چهره بهازای هر نما یا ردیابی دستی پایدار میمانند.
ویرایش و گسترش ویدیو
ویرایش هدفدار روی ویدیوی موجود را پشتیبانی میکند: جایگزینی بخش، شخصیت یا اکشن مشخص، یا «ادامه فیلمبرداری» از طریق پرامپت برای تولید نماهای متوالی و گسترش یا ادامه ویدیو.
موارد استفاده و دسترسی
Seedance 2.0 برای تبلیغات تجاری، VFX سینمایی، ویدیوی تجارت الکترونیک، CG بازی، ویدیوی کوتاه و توضیح آموزشی بهطور گسترده مناسب است و هزینه و چرخه از ایده تا تدوین نهایی را بهطور محسوس کاهش میدهد. در Jiemeng وب، اپ Doubao و مرکز تجربه Volcano Ark در دسترس است.
خلاصه
با معماری چندوجهی یکپارچه، تولید مشترک صدا-ویدیوی بومی، حرکت دقیق فیزیکی، یکنواختی شخصیت و کنترل نما در سطح کارگردان، Seedance 2.0 تولید ویدیوی هوش مصنوعی را از «قابلیت تکنقطهای» به «خلق درجه صنعتی قابل کنترل در کل خط لوله» منتقل میکند. برندها، تیمهای تولید و سازندگان میتوانند این قابلیت را به گردش کار موجود وصل کنند و با گامهای کمتر محتوای صدا-تصویر یکنواختتر و حرفهایتر تولید کنند. Seedance 2.0 قرار است به یکی از بخشهای کلیدی زیرساخت خلق ویدیوی چندوجهی تبدیل شود.