🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman Gerador de Texto/Imagem para Vídeo com Sincronização de Áudio
Crie vídeos com daVinci MagiHuman - um modelo fundamental de áudio-vídeo open-source de 15B da Sand.ai e SII GAIR Lab. Gere vídeo e áudio sincronizados a partir de texto ou imagens com precisão de lip sync líder em 7 idiomas. Até 1080p, 5-10 segundos. Arquitetura Transformer single-stream, vídeo 5s 256p em apenas 2 segundos em uma H100.
daVinci MagiHuman Text to Video Gallery
Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.
Rainy Tokyo Night
A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman Image to Video Gallery
Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Vídeos do YouTube daVinci MagiHuman
Assista demonstrações e avaliações da comunidade exibindo as capacidades de geração de áudio-vídeo do daVinci MagiHuman
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
Vídeos do YouTube daVinci MagiHuman
Assista demonstrações e avaliações da comunidade exibindo as capacidades de geração de áudio-vídeo do daVinci MagiHuman
daVinci MagiHuman Avaliações populares no X
Veja o que as pessoas estão dizendo sobre daVinci MagiHuman no X (Twitter)
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
O que é daVinci MagiHuman
O modelo fundamental de áudio-vídeo open-source de 15B da Sand.ai com o melhor lip sync
daVinci MagiHuman é um Transformer single-stream de 15 bilhões de parâmetros que gera conjuntamente vídeo e áudio sincronizados a partir de texto ou imagens, alcançando precisão de lip sync líder com taxa de erro de palavras de 14,6% em 7 idiomas.
O que é daVinci MagiHuman
O modelo fundamental de áudio-vídeo open-source de 15B da Sand.ai com o melhor lip sync
daVinci MagiHuman é um Transformer single-stream de 15 bilhões de parâmetros que gera conjuntamente vídeo e áudio sincronizados a partir de texto ou imagens, alcançando precisão de lip sync líder com taxa de erro de palavras de 14,6% em 7 idiomas.
Funcionalidades do daVinci MagiHuman
Descubra as capacidades avançadas que tornam o daVinci MagiHuman excepcional para geração de áudio-vídeo
Geração Conjunta de Áudio-Vídeo
Gere vídeo e áudio sincronizados em uma única passagem usando arquitetura Transformer single-stream com apenas self-attention, sem pipeline de áudio separado.
Lip Sync Líder do Setor
Taxa de erro de palavras de 14,6% para sincronização labial, superando significativamente Ovi 1.1 (40,45%) e LTX 2.3 (19,23%) em benchmarks de precisão de fala.
Suporte de Voz em 7 Idiomas
Gere vídeos sincronizados com fala em inglês, chinês (mandarim e cantonês), japonês, coreano, alemão e francês com pronúncia natural.
Geração Ultra-Rápida
Produza um vídeo 256p de 5 segundos em apenas 2 segundos em uma única GPU H100. Destilação DMD-2 em 8 etapas sem necessidade de guidance sem classificador.
Modo Duplo de Entrada
Crie vídeos a partir de prompts de texto ou anime imagens estáticas. Ambos os modos suportam proporções, resoluções e durações de 5 a 10 segundos configuráveis.
Super-Resolução Até 1080p
Gere vídeos em 256p, 540p, 720p ou 1080p via pipeline de super-resolução no espaço latente sem overhead adicional de decodificação-codificação VAE.
Código Aberto Apache 2.0
Totalmente open-source sob licença Apache 2.0 com stack completo incluindo pesos base, modelo destilado, modelo de super-resolução e código de inferência para uso comercial irrestrito.
Excelência Centrada no Humano
Especializado em geração de humanos digitais com expressões faciais expressivas, movimentos corporais realistas e preservação consistente de personagens entre frames.
Perguntas Frequentes
Perguntas comuns sobre a geração de áudio-vídeo do daVinci MagiHuman
Ainda tem dúvidas?
Como usar daVinci MagiHuman Texto para Vídeo
Gere vídeos com áudio sincronizado a partir de descrições de texto
Digite uma descrição detalhada do vídeo desejado. Inclua assunto, ação, conteúdo de fala e idioma desejado para melhores resultados de lip sync.
Como usar daVinci MagiHuman Imagem para Vídeo
Anime imagens estáticas em vídeos com áudio sincronizado
Carregue uma imagem de referência da pessoa ou cena a animar. daVinci MagiHuman se destaca em conteúdo centrado no humano com expressões faciais realistas.
Preços
Escolha o plano certo para você. Sem taxas ocultas, sem surpresas.
Faturação mensal