Seedance 2.0 : nouveau référentiel ByteDance pour la génération vidéo IA multimodale

Le 12 février 2026, l’équipe Seed de ByteDance a officiellement lancé Seedance 2.0, modèle de génération vidéo IA multimodale de nouvelle génération. Il repose sur une architecture unifiée de génération audio-visuelle multimodale prenant en entrée texte, image, audio et vidéo, et fixe de nouveaux standards en matière de mouvement physiquement précis, de cohérence des personnages et de contrôle des plans au niveau réalisateur. Une seule génération produit un contenu audio-visuel de haute qualité, répondant aux besoins de création de niveau industriel.

Qu’est-ce que Seedance 2.0

Seedance 2.0 est le modèle de génération vidéo IA le plus avancé de ByteDance à ce jour. Contrairement aux approches antérieures limitées au texte ou à l’image, il s’appuie sur une architecture multimodale unifiée acceptant texte, images, audio et vidéo, et utilise un système de mention @ en langage naturel pour préciser le rôle de chaque ressource (référence d’apparence depuis une image, mouvement et caméra depuis une vidéo, rythme et style depuis l’audio). Ce paradigme « du prompt au réalisateur » permet aux créateurs de piloter toute la génération comme un tournage, avec un ensemble complet et rare de références multimodales et d’édition.

Sur le benchmark SeedVideoBench-2.0, Seedance 2.0 mène en qualité de mouvement, fidélité visuelle, précision physique, respect du prompt et cohérence temporelle, offrant une nouvelle référence pour une génération vidéo IA « utilisable, contrôlable et de haute qualité ».

Capacités principales

Référence multimodale et système @

Les utilisateurs peuvent télécharger jusqu’à 9 images, 3 vidéos et 3 pistes audio à la fois, puis utiliser le langage naturel et les mentions @ pour indiquer si chaque ressource sert au « mouvement », au « style », au « personnage », à la « caméra » ou au « rythme audio ». Une seule génération fusionne les références multi-sources sans composition étape par étape ni post-sync.

Génération audio-vidéo conjointe native

Seedance 2.0 produit l’audio et la vidéo ensemble en une seule génération, et non « vidéo d’abord, son ensuite ». Il gère le dialogue lip-sync, les effets sonores calés sur l’action, la musique de fond au rythme visuel et la voix off expressive, avec stéréo. Les formats type talking head, récit ou publicité peuvent être conçus « audio-visuel dès le départ », sans workflow audio post séparé.

Mouvement physiquement précis et interaction complexe

Dans les scènes à forte physique et interaction complexe (patinage en couple, compétition multi-personnes, manipulation d’équipement), le modèle améliore nettement le naturel, la cohérence et la plausibilité physique du mouvement. Le « taux d’utilisation » dans les scènes d’interaction et de mouvement complexes atteint un niveau de pointe dans l’industrie.

Contrôle des plans au niveau réalisateur

Les utilisateurs peuvent spécifier en langage naturel zoom Hitchcock, orbite, suivi, dolly, sensation main, ainsi que chorégraphie et transitions complexes, ou télécharger une vidéo de référence pour que le modèle reproduise ses techniques de caméra et son rythme de montage dans de nouvelles scènes.

Cohérence des personnages et des objets

Après téléchargement d’images de référence personnage ou produit, Seedance 2.0 maintient traits du visage, vêtements et logos cohérents sur tous les plans, angles et éclairages. L’identité et l’apparence restent stables sans retouche plan par plan ni suivi manuel.

Édition et extension vidéo

Permet des modifications ciblées sur une vidéo existante : remplacer segments, personnages ou actions, ou « continuer à tourner » par prompt pour générer des plans consécutifs et prolonger ou poursuivre la vidéo.

Cas d’usage et accès

Seedance 2.0 convient aux publicités commerciales, VFX cinéma, vidéo e-commerce, CG jeu, court format et explications pédagogiques, en réduisant fortement coût et délai de l’idée au montage final. Il est disponible sur Jiemeng web, app Doubao et centre d’expérience Volcano Ark.

Résumé

Avec son architecture multimodale unifiée, sa génération audio-vidéo conjointe native, son mouvement physiquement précis, sa cohérence des personnages et son contrôle des plans au niveau réalisateur, Seedance 2.0 fait passer la génération vidéo IA de la « capacité ponctuelle » à la « création de niveau industriel contrôlable sur tout le pipeline ». Marques, équipes de production et créateurs peuvent intégrer cette capacité dans leurs flux existants pour produire un contenu audio-visuel plus cohérent et professionnel en moins d’étapes. Seedance 2.0 est appelé à devenir une pièce maîtresse de l’infrastructure de création vidéo multimodale.