Modelos de vídeo

daVinci MagiHuman Gerador de Texto/Imagem para Vídeo com Sincronização de Áudio

Crie vídeos com daVinci MagiHuman - um modelo fundamental de áudio-vídeo open-source de 15B da Sand.ai e SII GAIR Lab. Gere vídeo e áudio sincronizados a partir de texto ou imagens com precisão de lip sync líder em 7 idiomas. Até 1080p, 5-10 segundos. Arquitetura Transformer single-stream, vídeo 5s 256p em apenas 2 segundos em uma H100.

/video/text-to-video

Público

Traduzir para English

Otimizar prompt

*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman

AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman

Source Feeds01 Inputs

Podcast Host Speaking - Input 1

Pipeline

00%

Program · On AirAI · Generated

Output

Transcript · 01

Podcast Host Speaking

Vídeos do YouTube daVinci MagiHuman

Assista demonstrações e avaliações da comunidade exibindo as capacidades de geração de áudio-vídeo do daVinci MagiHuman

daVinci MagiHuman Avaliações populares no X

Veja o que as pessoas estão dizendo sobre daVinci MagiHuman no X (Twitter)

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

Reel · Specifications

O que é daVinci MagiHuman

O modelo fundamental de áudio-vídeo open-source de 15B da Sand.ai com o melhor lip sync

· 0115BParâmetros
· 021080pResolução Máx
· 037Idiomas Suportados
· 042sVelocidade 256p

daVinci MagiHuman é um Transformer single-stream de 15 bilhões de parâmetros que gera conjuntamente vídeo e áudio sincronizados a partir de texto ou imagens, alcançando precisão de lip sync líder com taxa de erro de palavras de 14,6% em 7 idiomas.

Reel · Capabilities

Funcionalidades do daVinci MagiHuman

Descubra as capacidades avançadas que tornam o daVinci MagiHuman excepcional para geração de áudio-vídeo

Feature 01 / 08
Geração Conjunta de Áudio-Vídeo
Gere vídeo e áudio sincronizados em uma única passagem usando arquitetura Transformer single-stream com apenas self-attention, sem pipeline de áudio separado.
Feature 02 / 08
Lip Sync Líder do Setor
Taxa de erro de palavras de 14,6% para sincronização labial, superando significativamente Ovi 1.1 (40,45%) e LTX 2.3 (19,23%) em benchmarks de precisão de fala.
Feature 03 / 08
Suporte de Voz em 7 Idiomas
Gere vídeos sincronizados com fala em inglês, chinês (mandarim e cantonês), japonês, coreano, alemão e francês com pronúncia natural.
Feature 04 / 08
Geração Ultra-Rápida
Produza um vídeo 256p de 5 segundos em apenas 2 segundos em uma única GPU H100. Destilação DMD-2 em 8 etapas sem necessidade de guidance sem classificador.
Feature 05 / 08
Modo Duplo de Entrada
Crie vídeos a partir de prompts de texto ou anime imagens estáticas. Ambos os modos suportam proporções, resoluções e durações de 5 a 10 segundos configuráveis.
Feature 06 / 08
Super-Resolução Até 1080p
Gere vídeos em 256p, 540p, 720p ou 1080p via pipeline de super-resolução no espaço latente sem overhead adicional de decodificação-codificação VAE.
Feature 07 / 08
Código Aberto Apache 2.0
Totalmente open-source sob licença Apache 2.0 com stack completo incluindo pesos base, modelo destilado, modelo de super-resolução e código de inferência para uso comercial irrestrito.
Feature 08 / 08
Excelência Centrada no Humano
Especializado em geração de humanos digitais com expressões faciais expressivas, movimentos corporais realistas e preservação consistente de personagens entre frames.

FAQ

Perguntas Frequentes

Perguntas comuns sobre a geração de áudio-vídeo do daVinci MagiHuman

Ainda tem dúvidas?

[email protected]

Junte-se ao Discord Enviar ticket

O daVinci MagiHuman suporta dois modos principais: Texto-para-Vídeo (geração de vídeos com áudio sincronizado a partir de prompts) e Imagem-para-Vídeo (animação de imagens estáticas com áudio opcional). Ambos os modos suportam proporções configuráveis (16:9 paisagem, 9:16 retrato), resoluções até 1080p e durações de 5 a 10 segundos.

O daVinci MagiHuman suporta geração de fala sincronizada em 7 idiomas: inglês, chinês (mandarim), cantonês, japonês, coreano, alemão e francês. O modelo alcança uma taxa de erro de palavras de 14,6% para lip sync, superando significativamente Ovi 1.1 (40,45%) e LTX 2.3 (19,23%).

O daVinci MagiHuman suporta múltiplas resoluções: 256p (mais rápido), 540p (super-resolução), 720p e 1080p (super-resolução). A duração do vídeo pode ser configurada de 5 a 10 segundos com granularidade de 1 segundo. São suportados formatos paisagem (16:9) e retrato (9:16).

Em uma única GPU NVIDIA H100, o daVinci MagiHuman gera um vídeo 256p de 5 segundos em aproximadamente 2 segundos. Para resoluções superiores: 540p leva cerca de 8 segundos e 1080p cerca de 38,4 segundos. Essa velocidade é alcançada pela destilação DMD-2 em 8 etapas sem classifier-free guidance.

Sim, o daVinci MagiHuman é totalmente open-source sob licença Apache 2.0 pela Sand.ai e SII GAIR Lab. O stack completo está disponível incluindo pesos do modelo base, modelo destilado, modelo de super-resolução e código de inferência para uso comercial irrestrito.

O daVinci MagiHuman se destaca por sua arquitetura Transformer single-stream que usa apenas self-attention (sem cross-attention ou caminhos multi-stream), permitindo geração conjunta de áudio-vídeo em um único modelo. Alcança a melhor precisão de lip sync (14,6% WER), suporta 7 idiomas e obtém taxa de vitória de 80% contra Ovi 1.1 em avaliação humana.

Como usar daVinci MagiHuman Texto para Vídeo

Gere vídeos com áudio sincronizado a partir de descrições de texto

Escreva seu Prompt

Digite uma descrição detalhada do vídeo desejado. Inclua assunto, ação, conteúdo de fala e idioma desejado para melhores resultados de lip sync.

Como usar daVinci MagiHuman Imagem para Vídeo

Anime imagens estáticas em vídeos com áudio sincronizado

Carregue sua Imagem

Carregue uma imagem de referência da pessoa ou cena a animar. daVinci MagiHuman se destaca em conteúdo centrado no humano com expressões faciais realistas.

Pricing · Choose Yours

Preços

Escolha o plano certo para você. Sem taxas ocultas, sem surpresas.

Uma vez suporta pagamento com criptomoedas (BTC, USDT, ETH, 350+)

Faturação mensal

Grátis-Uma vez

Experimente antes de comprar

0

Uma vez

USD

Grátis

32créditos

Até 3 vídeos

Até 32 imagens

Suporte multi-modelo

Texto para vídeo

Imagem para vídeo

Vídeo para vídeo

Personagem consistente

Gerador de animação IA

Modelos e efeitos

Melhoradores de vídeo IA

Comunidade interativa

Geração mais rápida

Sem marca d'água

Mais movimentos de câmera

Visibilidade privada de vídeo

Proteção contra cópia

Suporte prioritário

Popular

Pro-1 Mês

Eleve sua experiência com IA

29.99

1 Mês

USD

800

800créditos1 Mês

Até 80 vídeos1 Mês

Até 800 imagens1 Mês

3 tarefas(Tarefas paralelas)

Suporte multi-modelo

Texto para vídeo

Imagem para vídeo

Vídeo para vídeo

Personagem consistente

Gerador de animação IA

Modelos e efeitos

Melhoradores de vídeo IA

Comunidade interativa

Geração mais rápida

Sem marca d'água

Mais movimentos de câmera

Visibilidade privada de vídeo

Proteção contra cópia

Suporte prioritário

Lite-1 Mês

Comece sua jornada com IA

19.99

1 Mês

USD

300créditos1 Mês

Até 30 vídeos1 Mês

Até 300 imagens1 Mês

3 tarefas(Tarefas paralelas)

Suporte multi-modelo

Texto para vídeo

Imagem para vídeo

Vídeo para vídeo

Personagem consistente

Gerador de animação IA

Modelos e efeitos

Melhoradores de vídeo IA

Comunidade interativa

Geração mais rápida

Sem marca d'água

Mais movimentos de câmera

Visibilidade privada de vídeo

Proteção contra cópia

Suporte prioritário

Ver preços detalhados