视频模型

daVinci MagiHuman 文/图生视频生成器 - 支援音频同步

使用 daVinci MagiHuman 创作视频 - Sand.ai 和 SII GAIR Lab 联合开发的 150 亿参数开源音视频基础模型。从文本或图像生成同步的视频和音频，具有业界领先的 7 语种唇语同步精度。支持最高 1080p 分辨率，5-10 秒时长。采用单流 Transformer 架构，无需交叉注意力，在单张 H100 上 2 秒即可生成 5 秒 256p 视频。

/video/text-to-video

公开

翻译为English

优化提示词

*

daVinci MagiHuman 文生视频画廊

体验 daVinci MagiHuman 文生视频的电影级力量。从详细的文本描述创建带同步音频的精彩视频，具有业界领先的 7 语种唇语同步。

用 daVinci MagiHuman 创作

AI Video

雨夜东京

一位穿红色外套的女性在雨夜的霓虹灯东京小巷中漫步，倒影在湿润的鹅卵石上闪烁。

Prompt

“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”

Live PipelineTake 01 / 01

daVinci MagiHuman 图生视频画廊

使用 daVinci MagiHuman 将静态图像转换为动态视频。体验无缝的图生视频转换，具有逼真的面部表情、自然的肢体运动和同步的唇语音频。

用 daVinci MagiHuman 创作

Source Feeds01 Inputs

播客主持人说话 - Input 1

Pipeline

00%

Program · On AirAI · Generated

Output

Transcript · 01

播客主持人说话

daVinci MagiHuman YouTube 视频

观看社区演示和评测，了解 daVinci MagiHuman 的音视频生成能力

daVinci MagiHuman 在 X 上的热门评价

看看大家在 X (Twitter) 上对 daVinci MagiHuman 的评价

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

Reel · Specifications

什么是 daVinci MagiHuman

Sand.ai 的 150 亿参数开源音视频基础模型，具有业界最佳唇语同步

· 01150亿参数量
· 021080p最高分辨率
· 037种支持语言
· 042秒256p生成速度

daVinci MagiHuman 是一个 150 亿参数的单流 Transformer，可从文本或图像联合生成同步的视频和音频，以 14.6% 的词错误率在 7 种语言中实现业界领先的唇语同步精度。

Reel · Capabilities

daVinci MagiHuman 强大功能

探索使 daVinci MagiHuman 在音视频生成领域脱颖而出的先进功能

Feature 01 / 08
联合音视频生成
使用统一的单流 Transformer 架构，仅通过自注意力机制在单次推理中生成同步的视频和音频，无需独立的音频管线。
Feature 02 / 08
业界领先的唇语同步
唇语同步的词错误率仅为 14.6%，显著优于 Ovi 1.1（40.45%）和 LTX 2.3（19.23%）等竞品的语音准确率基准。
Feature 03 / 08
7 种语言语音支持
支持生成英语、中文（普通话和粤语）、日语、韩语、德语和法语的语音同步视频，具有自然的发音和唇部动作。
Feature 04 / 08
超快速生成
在单张 H100 GPU 上仅需 2 秒即可生成 5 秒 256p 视频。8 步 DMD-2 蒸馏无需分类器自由引导即可保持质量。
Feature 05 / 08
双输入模式
从文本提示创建视频或将静态图像动画化。文生视频和图生视频模式均支持可配置的宽高比、分辨率和 5-10 秒时长。
Feature 06 / 08
高达 1080p 超分辨率
通过潜空间超分辨率管线生成 256p、540p、720p 或 1080p 视频，无需额外的 VAE 编解码开销即可高效输出高分辨率。
Feature 07 / 08
开源 Apache 2.0
完全以 Apache 2.0 许可证开源，包含完整的基础权重、蒸馏模型、超分辨率模型和推理代码，可无限制商业使用。
Feature 08 / 08
以人为中心的卓越表现
专注于数字人生成，具有富有表现力的面部表情、逼真的肢体运动和跨帧一致的角色保持，适合专业的说话头像内容。

FAQ

常见问题

关于 daVinci MagiHuman 音视频生成的常见问题

还有其他问题？

[email protected]

加入 Discord 社区提交工单

daVinci MagiHuman 支持两种主要输入模式：文生视频（从文本提示生成带同步音频的视频）和图生视频（将静态图像动画化为带可选音频的运动视频）。两种模式均支持可配置的宽高比（16:9 横屏、9:16 竖屏）、最高 1080p 分辨率和 5-10 秒时长。

daVinci MagiHuman 支持 7 种语言的同步语音生成：英语、中文（普通话）、粤语、日语、韩语、德语和法语。该模型的唇语同步词错误率为 14.6%，显著优于 Ovi 1.1（40.45%）和 LTX 2.3（19.23%）等竞品。

daVinci MagiHuman 支持多种分辨率：256p（最快）、540p（超分辨率）、720p 和 1080p（超分辨率）。视频时长可从 5 秒到 10 秒以 1 秒为单位配置。支持横屏（16:9）和竖屏（9:16）两种宽高比。

在单张 NVIDIA H100 GPU 上，daVinci MagiHuman 生成 5 秒 256p 视频仅需约 2 秒。更高分辨率的生成时间更长：540p 约需 8 秒，1080p 约需 38.4 秒。这一速度得益于 8 步 DMD-2 蒸馏技术，无需分类器自由引导。

是的，daVinci MagiHuman 由 Sand.ai 和 SII GAIR Lab 以 Apache 2.0 许可证完全开源。完整的技术栈可用，包括基础模型权重、蒸馏模型、超分辨率模型和推理代码，允许无限制的商业使用、修改和分发。

daVinci MagiHuman 的独特之处在于其单流 Transformer 架构，仅使用自注意力（无交叉注意力或多流路径），在单个模型中实现联合音视频生成。它实现了业界最佳的唇语同步精度（14.6% 词错误率），支持 7 种语言语音，在人类评估视觉质量中对 Ovi 1.1 的胜率达 80%。

如何使用 daVinci MagiHuman 文生视频

从文本描述生成带同步音频的视频

编写提示词

输入您想创建的视频的详细描述。包含主题、动作、语音内容和所需语言，以获得最佳唇语同步效果。

如何使用 daVinci MagiHuman 图生视频

将静态图像动画化为带同步音频的视频

上传图像

上传您想要动画化的人物或场景参考图像。daVinci MagiHuman 擅长以人为中心的内容，具有逼真的面部表情和肢体运动。

Pricing · Choose Yours

灵活的 AI 定价

按量付费或订阅计划。无隐藏费用，随时取消。

一次性支持加密货币支付 (BTC, USDT, ETH, 350+)

月付账单

免费版-一次性

免费试用

0

一次性

USD

免费

32积分

最多 3 视频

最多 32 图片

多模型支持

文字转视频

图片转视频

视频转视频

角色一致性

AI 动画生成器

模板与特效

AI 视频增强

互动社区

更快生成速度

无水印输出

更多镜头运动

视频隐私控制

复制保护

优先支持

热门

专业版-1 月

提升您的AI体验

29.99

1 月

USD

800

800积分1 月

最多 80 视频1 月

最多 800 图片1 月

3 任务(并行任务)

多模型支持

文字转视频

图片转视频

视频转视频

角色一致性

AI 动画生成器

模板与特效

AI 视频增强

互动社区

更快生成速度

无水印输出

更多镜头运动

视频隐私控制

复制保护

优先支持

轻量版-1 月

开始您的AI之旅

19.99

1 月

USD

300积分1 月

最多 30 视频1 月

最多 300 图片1 月

3 任务(并行任务)

多模型支持

文字转视频

图片转视频

视频转视频

角色一致性

AI 动画生成器

模板与特效

AI 视频增强

互动社区

更快生成速度

无水印输出

更多镜头运动

视频隐私控制

复制保护

优先支持

查看详细价格