در ۱۲ فوریه ۲۰۲۶ تیم Seed بایت‌دنس به‌طور رسمی Seedance 2.0 را منتشر کرد—مدل تولید ویدیوی هوش مصنوعی چندوجهی نسل جدید. از معماری تولید مشترک صدا-تصویر چندوجهی یکپارچه استفاده می‌کند که متن، تصویر، صدا و ویدیو را به‌عنوان ورودی پشتیبانی می‌کند و استانداردهای جدیدی در حرکت دقیق فیزیکی، یکنواختی شخصیت و کنترل نما در سطح کارگردان تعیین می‌کند. یک تولید واحد محتوای صدا-تصویر باکیفیت برای نیازهای خلق درجه صنعتی خروجی می‌دهد.

Seedance 2.0 چیست

Seedance 2.0 پیشرفته‌ترین مدل تولید ویدیوی هوش مصنوعی بایت‌دنس تا به امروز است. برخلاف رویکردهای قبلی که فقط متن یا تصویر می‌پذیرفتند، بر معماری چندوجهی یکپارچه ساخته شده که متن، تصاویر، صدا و ویدیو را می‌پذیرد و از سیستم اشاره @ به زبان طبیعی برای تعیین دقیق نقش هر دارایی استفاده می‌کند—مثلاً ظاهر شخصیت از یک تصویر، حرکت و دوربین از یک ویدیو، ریتم و سبک از صدا. این پارادایم «از پرامپت تا کارگردان» به سازندگان امکان می‌دهد کل تولید را مثل کارگردانی فیلمبرداری کنترل کنند و مجموعه کامل و کمیابی از ارجاع و ویرایش چندوجهی ارائه می‌دهد.

در معیار SeedVideoBench-2.0 Seedance 2.0 در کیفیت حرکت، وفاداری بصری، دقت فیزیکی، پایبندی به پرامپت و یکنواختی زمانی پیشتاز است و مرجع جدیدی برای تولید ویدیوی هوش مصنوعی «قابل استفاده، قابل کنترل و باکیفیت» فراهم می‌کند.

خلاصه قابلیت‌های اصلی

ارجاع چندوجهی و سیستم @

کاربران می‌توانند تا ۹ تصویر، ۳ ویدیو و ۳ کلیپ صوتی یکجا آپلود کنند و با زبان طبیعی و اشاره @ مشخص کنند هر دارایی برای «حرکت»، «سبک»، «شخصیت»، «دوربین» یا «ریتم صوتی» استفاده می‌شود. یک تولید ارجاعات چندمنبعی را بدون ترکیب گام‌به‌گام یا همگام‌سازی پس از تولید ادغام می‌کند.

تولید مشترک صدا-ویدیوی بومی

Seedance 2.0 صدا و ویدیو را در یک تولید با هم خروجی می‌دهد، نه «اول تصویر بعد صدا». دیالوگ همگام با لب، جلوه‌های صوتی هماهنگ با اکشن روی صفحه، موسیقی پس‌زمینه متناسب با ریتم بصری و گویندگی بااحساس را با استریو پشتیبانی می‌کند. فرمت‌هایی مثل صحبت مستقیم، روایت یا تبلیغات را می‌توان از همان ابتدا «صدا-تصویر یکپارچه» طراحی کرد بدون وابستگی به گردش کار صدای پس از تولید جداگانه.

حرکت دقیق فیزیکی و تعامل پیچیده

در صحنه‌های فیزیک قوی و تعامل پیچیده (اسکیت جفتی، رقابت چندنفره، کار با تجهیزات) مدل به‌طور محسوس طبیعی‌بودن، انسجام و معقولیت فیزیکی حرکت را بهبود می‌بخشد. «قابلیت استفاده» در صحنه‌های تعامل و حرکت پیچیده به سطح پیشرو صنعت می‌رسد.

کنترل نما در سطح کارگردان

کاربران می‌توانند زوم هیچکاک، مدار، ردیابی، دالی، حس دستی و کورئوگرافی و انتقال‌های پیچیده را مستقیماً به زبان طبیعی مشخص کنند یا ویدیوی مرجع آپلود کنند تا مدل تکنیک‌های دوربین و ریتم تدوین آن را در صحنه‌های جدید بازتولید کند.

یکنواختی شخصیت و شیء

پس از آپلود تصاویر مرجع شخصیت یا محصول، Seedance 2.0 ویژگی‌های چهره، لباس و لوگو را در همه نماها، زاویه‌ها و نور یکنواخت نگه می‌دارد. هویت و ظاهر بدون روتوش چهره به‌ازای هر نما یا ردیابی دستی پایدار می‌مانند.

ویرایش و گسترش ویدیو

ویرایش هدف‌دار روی ویدیوی موجود را پشتیبانی می‌کند: جایگزینی بخش، شخصیت یا اکشن مشخص، یا «ادامه فیلمبرداری» از طریق پرامپت برای تولید نماهای متوالی و گسترش یا ادامه ویدیو.

موارد استفاده و دسترسی

Seedance 2.0 برای تبلیغات تجاری، VFX سینمایی، ویدیوی تجارت الکترونیک، CG بازی، ویدیوی کوتاه و توضیح آموزشی به‌طور گسترده مناسب است و هزینه و چرخه از ایده تا تدوین نهایی را به‌طور محسوس کاهش می‌دهد. در Jiemeng وب، اپ Doubao و مرکز تجربه Volcano Ark در دسترس است.

خلاصه

با معماری چندوجهی یکپارچه، تولید مشترک صدا-ویدیوی بومی، حرکت دقیق فیزیکی، یکنواختی شخصیت و کنترل نما در سطح کارگردان، Seedance 2.0 تولید ویدیوی هوش مصنوعی را از «قابلیت تک‌نقطه‌ای» به «خلق درجه صنعتی قابل کنترل در کل خط لوله» منتقل می‌کند. برندها، تیم‌های تولید و سازندگان می‌توانند این قابلیت را به گردش کار موجود وصل کنند و با گام‌های کمتر محتوای صدا-تصویر یکنواخت‌تر و حرفه‌ای‌تر تولید کنند. Seedance 2.0 قرار است به یکی از بخش‌های کلیدی زیرساخت خلق ویدیوی چندوجهی تبدیل شود.