影片模型

daVinci MagiHuman 文/圖生影片生成器 - 支援音訊同步

使用 daVinci MagiHuman 創作影片 - Sand.ai 和 SII GAIR Lab 聯合開發的 150 億參數開源音影片基礎模型。從文本或影像生成同步的影片和音訊，具有業界領先的 7 語種唇語同步精度。支持最高 1080p 解析度，5-10 秒時長。採用單流 Transformer 架構，無需交叉注意力，在單張 H100 上 2 秒即可生成 5 秒 256p 影片。

/video/text-to-video

公開

翻譯為English

最佳化提示詞

*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman

AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman

Source Feeds01 Inputs

Podcast Host Speaking - Input 1

Pipeline

00%

Program · On AirAI · Generated

Output

Transcript · 01

Podcast Host Speaking

daVinci MagiHuman YouTube 影片

觀看社區演示和評測，了解 daVinci MagiHuman 的音影片生成能力

daVinci MagiHuman 在 X 上的熱門評價

看看大家在 X (Twitter) 上對 daVinci MagiHuman 的評價

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

Reel · Specifications

什麼是 daVinci MagiHuman

Sand.ai 的 150 億參數開源音影片基礎模型，具有業界最佳唇語同步

· 01150億參數量
· 021080p最高解析度
· 037種支援語言
· 042秒256p生成速度

daVinci MagiHuman 是一個 150 億參數的單流 Transformer，可從文本或影像聯合生成同步的影片和音訊，以 14.6% 的詞錯誤率在 7 種語言中實現業界領先的唇語同步精度。

Reel · Capabilities

daVinci MagiHuman 強大功能

探索使 daVinci MagiHuman 在音影片生成領域脫穎而出的先進功能

Feature 01 / 08
聯合音影片生成
使用統一的單流 Transformer 架構，僅通過自注意力機制在單次推理中生成同步的影片和音訊，無需獨立的音訊管線。
Feature 02 / 08
業界領先的唇語同步
唇語同步的詞錯誤率僅為 14.6%，顯著優於 Ovi 1.1（40.45%）和 LTX 2.3（19.23%）等競品的語音準確率基準。
Feature 03 / 08
7 種語言語音支援
支援生成英語、中文（普通話和粵語）、日語、韓語、德語和法語的語音同步影片，具有自然的發音和唇部動作。
Feature 04 / 08
超快速生成
在單張 H100 GPU 上僅需 2 秒即可生成 5 秒 256p 影片。8 步 DMD-2 蒸餾無需分類器自由引導即可保持質量。
Feature 05 / 08
雙輸入模式
從文本提示創建影片或將靜態影像動畫化。文生影片和圖生影片模式均支援可配置的寬高比、解析度和 5-10 秒時長。
Feature 06 / 08
高達 1080p 超解析度
通過潛空間超解析度管線生成 256p、540p、720p 或 1080p 影片，無需額外的 VAE 編解碼開銷即可高效輸出高解析度。
Feature 07 / 08
開源 Apache 2.0
完全以 Apache 2.0 許可證開源，包含完整的基礎權重、蒸餾模型、超解析度模型和推理代碼，可無限制商業使用。
Feature 08 / 08
以人為中心的卓越表現
專注於數字人生成，具有富有表現力的面部表情、逼真的肢體運動和跨幀一致的角色保持，適合專業的說話頭像內容。

FAQ

常見問題

關於 daVinci MagiHuman 音影片生成的常見問題

還有其他問題嗎？

[email protected]

加入 Discord 社群提交工單

daVinci MagiHuman 支援兩種主要輸入模式：文生影片（從文本提示生成帶同步音訊的影片）和圖生影片（將靜態影像動畫化為帶可選音訊的運動影片）。兩種模式均支援可配置的寬高比（16:9 橫屏、9:16 豎屏）、最高 1080p 解析度和 5-10 秒時長。

daVinci MagiHuman 支援 7 種語言的同步語音生成：英語、中文（普通話）、粵語、日語、韓語、德語和法語。該模型的唇語同步詞錯誤率為 14.6%，顯著優於 Ovi 1.1（40.45%）和 LTX 2.3（19.23%）等競品。

daVinci MagiHuman 支援多種解析度：256p（最快）、540p（超解析度）、720p 和 1080p（超解析度）。影片時長可從 5 秒到 10 秒以 1 秒為單位配置。支援橫屏（16:9）和豎屏（9:16）兩種寬高比。

在單張 NVIDIA H100 GPU 上，daVinci MagiHuman 生成 5 秒 256p 影片僅需約 2 秒。更高解析度的生成時間更長：540p 約需 8 秒，1080p 約需 38.4 秒。這一速度得益於 8 步 DMD-2 蒸餾技術，無需分類器自由引導。

是的，daVinci MagiHuman 由 Sand.ai 和 SII GAIR Lab 以 Apache 2.0 許可證完全開源。完整的技術棧可用，包括基礎模型權重、蒸餾模型、超解析度模型和推理代碼，允許無限制的商業使用、修改和分發。

daVinci MagiHuman 的獨特之處在於其單流 Transformer 架構，僅使用自注意力（無交叉注意力或多流路徑），在單個模型中實現聯合音影片生成。它實現了業界最佳的唇語同步精度（14.6% 詞錯誤率），支援 7 種語言語音，在人類評估視覺質量中對 Ovi 1.1 的勝率達 80%。

如何使用 daVinci MagiHuman 文生影片

從文本描述生成帶同步音訊的影片

編寫提示詞

輸入您想創建的影片的詳細描述。包含主題、動作、語音內容和所需語言，以獲得最佳唇語同步效果。

如何使用 daVinci MagiHuman 圖生影片

將靜態影像動畫化為帶同步音訊的影片

上傳影像

上傳您想要動畫化的人物或場景參考影像。daVinci MagiHuman 擅長以人為中心的內容，具有逼真的面部表情和肢體運動。

Pricing · Choose Yours

價格

選擇適合您的方案。沒有隱藏費用，沒有意外。

一次性支持加密貨幣支付 (BTC, USDT, ETH, 350+)

月付帳單

免費版-一次性

免費試用

0

一次性

USD

免費

32點數

3 影片

32 圖片

多模型支援

文字轉影片

圖片轉影片

影片轉影片

角色一致性

AI 動畫生成器

模板與特效

AI 影片增強

互動社區

更快生成速度

無浮水印輸出

更多鏡頭運動

影片隱私控制

複製保護

優先支援

熱門

專業版-1 月

提升您的AI體驗

29.99

1 月

USD

800

800點數1 月

80 影片1 月

800 圖片1 月

3 任務(並行任務)

多模型支援

文字轉影片

圖片轉影片

影片轉影片

角色一致性

AI 動畫生成器

模板與特效

AI 影片增強

互動社區

更快生成速度

無浮水印輸出

更多鏡頭運動

影片隱私控制

複製保護

優先支援

輕量版-1 月

開始您的AI之旅

9.99

1 月

USD

200點數1 月

20 影片1 月

200 圖片1 月

3 任務(並行任務)

多模型支援

文字轉影片

圖片轉影片

影片轉影片

角色一致性

AI 動畫生成器

模板與特效

AI 影片增強

互動社區

更快生成速度

無浮水印輸出

更多鏡頭運動

影片隱私控制

複製保護

優先支援

查看詳細價格