El 12 de febrero de 2026, el equipo Seed de ByteDance lanzó oficialmente Seedance 2.0, un modelo de generación de vídeo IA multimodal de nueva generación. Utiliza una arquitectura unificada de generación conjunta audio-visual multimodal que admite texto, imagen, audio y vídeo como entradas, y establece nuevos estándares en movimiento físicamente preciso, consistencia de personajes y control de cámara a nivel de director. Una sola generación puede producir contenido audio-visual de alta calidad para necesidades de creación de nivel industrial.
Qué es Seedance 2.0
Seedance 2.0 es el modelo de generación de vídeo IA más avanzado de ByteDance hasta la fecha. A diferencia de enfoques anteriores que solo aceptaban texto o imagen, se basa en una arquitectura multimodal unificada que acepta texto, imágenes, audio y vídeo, y usa un sistema de menciones @ en lenguaje natural para especificar el papel de cada recurso (por ejemplo, referencia de apariencia desde una imagen, movimiento y cámara desde un vídeo, ritmo y estilo desde audio). Este paradigma “del prompt al director” permite a los creadores controlar toda la generación como si dirigieran un rodaje, ofreciendo un conjunto completo y poco común de referencias multimodales y edición.
En el benchmark SeedVideoBench-2.0, Seedance 2.0 lidera en calidad de movimiento, fidelidad visual, precisión física, adherencia al prompt y consistencia temporal, proporcionando una nueva referencia para la generación de vídeo IA “usable, controlable y de alta calidad”.
Capacidades principales
Referencia multimodal y sistema @
Los usuarios pueden subir hasta 9 imágenes, 3 vídeos y 3 clips de audio a la vez y usar lenguaje natural y menciones @ para indicar si cada recurso se usa para “movimiento”, “estilo”, “personaje”, “cámara” o “ritmo de audio”. Una sola generación fusiona referencias de múltiples fuentes sin composición paso a paso ni sincronización posterior.
Generación nativa audio-vídeo conjunta
Seedance 2.0 genera audio y vídeo juntos en una sola pasada, no “vídeo primero y luego sonido”. Soporta diálogo con sincronización labial, efectos de sonido acordes a la acción, música de fondo que sigue el ritmo visual y voz en off expresiva, con estereofonía. Formatos como talking head, narrativo o anuncios pueden diseñarse “audio-visual desde el inicio”.
Movimiento físicamente preciso e interacción compleja
En escenarios de fuerte física e interacción compleja (patinaje artístico en pareja, competición multijugador, manejo de equipos), el modelo mejora la naturalidad, coherencia y plausibilidad física del movimiento. La “usabilidad” en escenas de interacción y movimiento complejos alcanza niveles líderes en la industria.
Control de cámara a nivel de director
Los usuarios pueden especificar zoom Hitchcock, órbita, seguimiento, dolly, sensación de mano y coreografía y transiciones complejas en lenguaje natural, o subir vídeo de referencia para que el modelo reproduzca sus técnicas de cámara y ritmo de edición en nuevas escenas.
Consistencia de personajes y objetos
Tras subir imágenes de referencia de personaje o producto, Seedance 2.0 mantiene rasgos faciales, ropa y logotipos coherentes en todas las tomas, ángulos e iluminación. La identidad y el aspecto se mantienen estables sin retoques por toma ni seguimiento manual.
Edición y extensión de vídeo
Permite ediciones dirigidas sobre vídeo existente: reemplazar segmentos, personajes o acciones, o “seguir rodando” por prompt para generar tomas consecutivas y ampliar o continuar el vídeo.
Casos de uso y acceso
Seedance 2.0 es adecuado para anuncios comerciales, VFX cinematográficos, vídeo e-commerce, CG para juegos, vídeo corto y explicaciones educativas, reduciendo coste y ciclo desde la idea hasta el montaje final. Está disponible en Jiemeng web, app Doubao y centro de experiencia Volcano Ark.
Resumen
Con su arquitectura multimodal unificada, generación nativa audio-vídeo conjunta, movimiento físicamente preciso, consistencia de personajes y control de cámara a nivel de director, Seedance 2.0 lleva la generación de vídeo IA de “capacidad puntual” a “creación de nivel industrial controlable en todo el pipeline”. Marcas, equipos de producción y creadores pueden integrar esta capacidad en sus flujos y producir contenido audio-visual más consistente y profesional con menos pasos. Seedance 2.0 está llamado a ser una pieza clave de la infraestructura de creación de vídeo multimodal.