🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman 文/图生视频生成器 - 支援音频同步
使用 daVinci MagiHuman 创作视频 - Sand.ai 和 SII GAIR Lab 联合开发的 150 亿参数开源音视频基础模型。从文本或图像生成同步的视频和音频,具有业界领先的 7 语种唇语同步精度。支持最高 1080p 分辨率,5-10 秒时长。采用单流 Transformer 架构,无需交叉注意力,在单张 H100 上 2 秒即可生成 5 秒 256p 视频。
daVinci MagiHuman 文生视频画廊
体验 daVinci MagiHuman 文生视频的电影级力量。从详细的文本描述创建带同步音频的精彩视频,具有业界领先的 7 语种唇语同步。
雨夜东京
一位穿红色外套的女性在雨夜的霓虹灯东京小巷中漫步,倒影在湿润的鹅卵石上闪烁。
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman 图生视频画廊
使用 daVinci MagiHuman 将静态图像转换为动态视频。体验无缝的图生视频转换,具有逼真的面部表情、自然的肢体运动和同步的唇语音频。

daVinci MagiHuman YouTube 视频
观看社区演示和评测,了解 daVinci MagiHuman 的音视频生成能力
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
daVinci MagiHuman YouTube 视频
观看社区演示和评测,了解 daVinci MagiHuman 的音视频生成能力
daVinci MagiHuman 在 X 上的热门评价
看看大家在 X (Twitter) 上对 daVinci MagiHuman 的评价
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
什么是 daVinci MagiHuman
Sand.ai 的 150 亿参数开源音视频基础模型,具有业界最佳唇语同步
daVinci MagiHuman 是一个 150 亿参数的单流 Transformer,可从文本或图像联合生成同步的视频和音频,以 14.6% 的词错误率在 7 种语言中实现业界领先的唇语同步精度。
什么是 daVinci MagiHuman
Sand.ai 的 150 亿参数开源音视频基础模型,具有业界最佳唇语同步
daVinci MagiHuman 是一个 150 亿参数的单流 Transformer,可从文本或图像联合生成同步的视频和音频,以 14.6% 的词错误率在 7 种语言中实现业界领先的唇语同步精度。
daVinci MagiHuman 强大功能
探索使 daVinci MagiHuman 在音视频生成领域脱颖而出的先进功能
联合音视频生成
使用统一的单流 Transformer 架构,仅通过自注意力机制在单次推理中生成同步的视频和音频,无需独立的音频管线。
业界领先的唇语同步
唇语同步的词错误率仅为 14.6%,显著优于 Ovi 1.1(40.45%)和 LTX 2.3(19.23%)等竞品的语音准确率基准。
7 种语言语音支持
支持生成英语、中文(普通话和粤语)、日语、韩语、德语和法语的语音同步视频,具有自然的发音和唇部动作。
超快速生成
在单张 H100 GPU 上仅需 2 秒即可生成 5 秒 256p 视频。8 步 DMD-2 蒸馏无需分类器自由引导即可保持质量。
双输入模式
从文本提示创建视频或将静态图像动画化。文生视频和图生视频模式均支持可配置的宽高比、分辨率和 5-10 秒时长。
高达 1080p 超分辨率
通过潜空间超分辨率管线生成 256p、540p、720p 或 1080p 视频,无需额外的 VAE 编解码开销即可高效输出高分辨率。
开源 Apache 2.0
完全以 Apache 2.0 许可证开源,包含完整的基础权重、蒸馏模型、超分辨率模型和推理代码,可无限制商业使用。
以人为中心的卓越表现
专注于数字人生成,具有富有表现力的面部表情、逼真的肢体运动和跨帧一致的角色保持,适合专业的说话头像内容。
如何使用 daVinci MagiHuman 文生视频
从文本描述生成带同步音频的视频
输入您想创建的视频的详细描述。包含主题、动作、语音内容和所需语言,以获得最佳唇语同步效果。
如何使用 daVinci MagiHuman 图生视频
将静态图像动画化为带同步音频的视频
上传您想要动画化的人物或场景参考图像。daVinci MagiHuman 擅长以人为中心的内容,具有逼真的面部表情和肢体运动。