🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman 文/圖生影片生成器 - 支援音訊同步
使用 daVinci MagiHuman 創作影片 - Sand.ai 和 SII GAIR Lab 聯合開發的 150 億參數開源音影片基礎模型。從文本或影像生成同步的影片和音訊,具有業界領先的 7 語種唇語同步精度。支持最高 1080p 解析度,5-10 秒時長。採用單流 Transformer 架構,無需交叉注意力,在單張 H100 上 2 秒即可生成 5 秒 256p 影片。
daVinci MagiHuman Text to Video Gallery
Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.
Rainy Tokyo Night
A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman Image to Video Gallery
Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

daVinci MagiHuman YouTube 影片
觀看社區演示和評測,了解 daVinci MagiHuman 的音影片生成能力
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
daVinci MagiHuman YouTube 影片
觀看社區演示和評測,了解 daVinci MagiHuman 的音影片生成能力
daVinci MagiHuman 在 X 上的熱門評價
看看大家在 X (Twitter) 上對 daVinci MagiHuman 的評價
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
什麼是 daVinci MagiHuman
Sand.ai 的 150 億參數開源音影片基礎模型,具有業界最佳唇語同步
daVinci MagiHuman 是一個 150 億參數的單流 Transformer,可從文本或影像聯合生成同步的影片和音訊,以 14.6% 的詞錯誤率在 7 種語言中實現業界領先的唇語同步精度。
什麼是 daVinci MagiHuman
Sand.ai 的 150 億參數開源音影片基礎模型,具有業界最佳唇語同步
daVinci MagiHuman 是一個 150 億參數的單流 Transformer,可從文本或影像聯合生成同步的影片和音訊,以 14.6% 的詞錯誤率在 7 種語言中實現業界領先的唇語同步精度。
daVinci MagiHuman 強大功能
探索使 daVinci MagiHuman 在音影片生成領域脫穎而出的先進功能
聯合音影片生成
使用統一的單流 Transformer 架構,僅通過自注意力機制在單次推理中生成同步的影片和音訊,無需獨立的音訊管線。
業界領先的唇語同步
唇語同步的詞錯誤率僅為 14.6%,顯著優於 Ovi 1.1(40.45%)和 LTX 2.3(19.23%)等競品的語音準確率基準。
7 種語言語音支援
支援生成英語、中文(普通話和粵語)、日語、韓語、德語和法語的語音同步影片,具有自然的發音和唇部動作。
超快速生成
在單張 H100 GPU 上僅需 2 秒即可生成 5 秒 256p 影片。8 步 DMD-2 蒸餾無需分類器自由引導即可保持質量。
雙輸入模式
從文本提示創建影片或將靜態影像動畫化。文生影片和圖生影片模式均支援可配置的寬高比、解析度和 5-10 秒時長。
高達 1080p 超解析度
通過潛空間超解析度管線生成 256p、540p、720p 或 1080p 影片,無需額外的 VAE 編解碼開銷即可高效輸出高解析度。
開源 Apache 2.0
完全以 Apache 2.0 許可證開源,包含完整的基礎權重、蒸餾模型、超解析度模型和推理代碼,可無限制商業使用。
以人為中心的卓越表現
專注於數字人生成,具有富有表現力的面部表情、逼真的肢體運動和跨幀一致的角色保持,適合專業的說話頭像內容。
如何使用 daVinci MagiHuman 文生影片
從文本描述生成帶同步音訊的影片
輸入您想創建的影片的詳細描述。包含主題、動作、語音內容和所需語言,以獲得最佳唇語同步效果。
如何使用 daVinci MagiHuman 圖生影片
將靜態影像動畫化為帶同步音訊的影片
上傳您想要動畫化的人物或場景參考影像。daVinci MagiHuman 擅長以人為中心的內容,具有逼真的面部表情和肢體運動。