Seedance 2.0: Novo referencial da ByteDance em geração de vídeo IA multimodal

A 12 de fevereiro de 2026, a equipa Seed da ByteDance lançou oficialmente o Seedance 2.0 — um modelo de geração de vídeo IA multimodal de nova geração. Utiliza uma arquitetura unificada de geração conjunta áudio-visual multimodal que aceita texto, imagem, áudio e vídeo como entradas e estabelece novos padrões em movimento fisicamente preciso, consistência de personagens e controlo de câmara ao nível de realizador. Uma única geração produz conteúdo áudio-visual de alta qualidade para necessidades de criação de nível industrial.

O que é o Seedance 2.0

O Seedance 2.0 é o modelo de geração de vídeo IA mais avançado da ByteDance até à data. Diferente de abordagens anteriores que só aceitavam texto ou imagem, baseia-se numa arquitetura multimodal unificada que aceita texto, imagens, áudio e vídeo e usa um sistema de menção @ em linguagem natural para especificar o papel de cada recurso (referência de aparência a partir de uma imagem, movimento e câmara a partir de um vídeo, ritmo e estilo a partir de áudio). Este paradigma “do prompt ao realizador” permite aos criadores controlar toda a geração como se dirigissem uma filmagem, oferecendo um conjunto completo e raro de referência multimodal e edição.

No benchmark SeedVideoBench-2.0, o Seedance 2.0 lidera em qualidade de movimento, fidelidade visual, precisão física, aderência ao prompt e consistência temporal, fornecendo uma nova referência para geração de vídeo IA “utilizável, controlável e de alta qualidade”.

Capacidades principais

Referência multimodal e sistema @

Os utilizadores podem carregar até 9 imagens, 3 vídeos e 3 clipes de áudio de uma vez e usar linguagem natural e menções @ para indicar se cada recurso serve para “movimento”, “estilo”, “personagem”, “câmara” ou “ritmo de áudio”. Uma única geração funde referências de múltiplas fontes sem composição passo a passo nem pós-sincronização.

Geração áudio-vídeo conjunta nativa

O Seedance 2.0 produz áudio e vídeo em conjunto numa única geração, e não “vídeo primeiro, som depois”. Suporta diálogo com sincronização labial, efeitos sonoros alinhados à ação, música de fundo que segue o ritmo visual e voz expressiva, em estéreo. Formatos como talking head, narrativa ou publicidade podem ser concebidos “áudio-visual desde o início”.

Movimento fisicamente preciso e interação complexa

Em cenários de forte física e interação complexa (patinagem em par, competição multipessoas, manuseamento de equipamento), o modelo melhora significativamente a naturalidade, coerência e plausibilidade física do movimento. A “usabilidade” em cenas de interação e movimento complexos atinge níveis líderes na indústria.

Controlo de câmara ao nível de realizador

Os utilizadores podem especificar em linguagem natural zoom Hitchcock, órbita, seguimento, dolly, sensação de handheld e coreografia e transições complexas, ou carregar vídeo de referência para o modelo reproduzir as suas técnicas de câmara e ritmo de edição em novas cenas.

Consistência de personagens e objetos

Após carregar imagens de referência de personagem ou produto, o Seedance 2.0 mantém traços faciais, roupa e logótipos consistentes em todas as tomadas, ângulos e iluminação. A identidade e a aparência mantêm-se estáveis sem retoques por tomada nem seguimento manual.

Edição e extensão de vídeo

Permite edições dirigidas sobre vídeo existente: substituir segmentos, personagens ou ações, ou “continuar a filmar” por prompt para gerar tomadas consecutivas e estender ou continuar o vídeo.

Casos de uso e acesso

O Seedance 2.0 é adequado para publicidade comercial, VFX cinematográfico, vídeo e-commerce, CG para jogos, vídeo curto e explicações educativas, reduzindo custo e ciclo da ideia ao corte final. Está disponível em Jiemeng web, app Doubao e centro de experiência Volcano Ark.

Resumo

Com a sua arquitetura multimodal unificada, geração áudio-vídeo conjunta nativa, movimento fisicamente preciso, consistência de personagens e controlo de câmara ao nível de realizador, o Seedance 2.0 leva a geração de vídeo IA de “capacidade pontual” a “criação de nível industrial controlável em todo o pipeline”. Marcas, equipas de produção e criadores podem integrar esta capacidade nos fluxos existentes para produzir conteúdo áudio-visual mais consistente e profissional com menos passos. O Seedance 2.0 está destinado a ser uma peça central da infraestrutura de criação de vídeo multimodal.