🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman Générateur Texte/Image vers Vidéo avec Synchronisation Audio
Créez des vidéos avec daVinci MagiHuman - un modèle fondation audio-vidéo open-source de 15B par Sand.ai et SII GAIR Lab. Générez vidéo et audio synchronisés à partir de texte ou d'images avec une précision de lip sync leader dans 7 langues. Jusqu'à 1080p avec 5-10 secondes. Architecture Transformer single-stream, vidéo 5s 256p en seulement 2 secondes sur un H100.
daVinci MagiHuman Text to Video Gallery
Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.
Rainy Tokyo Night
A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman Image to Video Gallery
Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Vidéos YouTube daVinci MagiHuman
Regardez les démonstrations et critiques de la communauté présentant les capacités de génération audio-vidéo de daVinci MagiHuman
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
Vidéos YouTube daVinci MagiHuman
Regardez les démonstrations et critiques de la communauté présentant les capacités de génération audio-vidéo de daVinci MagiHuman
daVinci MagiHuman Avis populaires sur X
Découvrez ce que les gens disent de daVinci MagiHuman sur X (Twitter)
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
Qu'est-ce que daVinci MagiHuman
Le modèle fondation audio-vidéo open-source de 15B de Sand.ai avec le meilleur lip sync
daVinci MagiHuman est un Transformer single-stream de 15 milliards de paramètres qui génère conjointement vidéo et audio synchronisés à partir de texte ou d'images, atteignant une précision de lip sync de premier plan avec un taux d'erreur de mots de 14,6% dans 7 langues.
Qu'est-ce que daVinci MagiHuman
Le modèle fondation audio-vidéo open-source de 15B de Sand.ai avec le meilleur lip sync
daVinci MagiHuman est un Transformer single-stream de 15 milliards de paramètres qui génère conjointement vidéo et audio synchronisés à partir de texte ou d'images, atteignant une précision de lip sync de premier plan avec un taux d'erreur de mots de 14,6% dans 7 langues.
Fonctionnalités de daVinci MagiHuman
Découvrez les capacités avancées qui font de daVinci MagiHuman un outil exceptionnel pour la génération audio-vidéo
Génération Audio-Vidéo Conjointe
Générez vidéo et audio synchronisés en une seule passe grâce à une architecture Transformer single-stream avec self-attention uniquement, sans pipeline audio séparé.
Lip Sync Leader du Secteur
Taux d'erreur de mots de 14,6% pour la synchronisation labiale, surpassant significativement Ovi 1.1 (40,45%) et LTX 2.3 (19,23%) dans les benchmarks de précision vocale.
Support Vocal en 7 Langues
Générez des vidéos synchronisées avec la parole en anglais, chinois (mandarin et cantonais), japonais, coréen, allemand et français avec prononciation naturelle.
Génération Ultra-Rapide
Produisez une vidéo 256p de 5 secondes en seulement 2 secondes sur un seul GPU H100. La distillation DMD-2 en 8 étapes élimine le besoin de guidance sans classificateur.
Double Mode d'Entrée
Créez des vidéos à partir de prompts texte ou animez des images fixes. Les deux modes supportent des ratios d'aspect, résolutions et durées de 5 à 10 secondes configurables.
Super-Résolution Jusqu'à 1080p
Générez des vidéos en 256p, 540p, 720p ou 1080p via un pipeline de super-résolution en espace latent sans surcharge de décodage-encodage VAE supplémentaire.
Open Source Apache 2.0
Entièrement open-source sous licence Apache 2.0 avec pile complète incluant poids de base, modèle distillé, modèle de super-résolution et code d'inférence pour usage commercial illimité.
Excellence Centrée sur l'Humain
Spécialisé dans la génération d'humains numériques avec expressions faciales expressives, mouvements corporels réalistes et préservation cohérente des personnages entre les images.
Questions Fréquemment Posées
Questions courantes sur la génération audio-vidéo de daVinci MagiHuman
D'autres questions ?
Comment utiliser daVinci MagiHuman Texte vers Vidéo
Générez des vidéos avec audio synchronisé à partir de descriptions textuelles
Entrez une description détaillée de la vidéo souhaitée. Incluez le sujet, l'action, le contenu vocal et la langue souhaitée pour un lip sync optimal.
Comment utiliser daVinci MagiHuman Image vers Vidéo
Animez des images fixes en vidéos avec audio synchronisé
Téléchargez une image de référence de la personne ou scène à animer. daVinci MagiHuman excelle dans le contenu centré sur l'humain avec des expressions faciales réalistes.
Tarifs
Choisissez le plan qui vous convient. Pas de frais cachés, pas de surprises.
Facturation mensuelle