Logo

daVinci MagiHuman 文/圖生影片生成器 - 支援音訊同步

使用 daVinci MagiHuman 創作影片 - Sand.ai 同 SII GAIR Lab 聯合開發嘅 150 億參數開源音影片基礎模型。從文本或影像生成同步嘅影片同音訊,具有業界領先嘅 7 語種唇語同步精度。支持最高 1080p 解析度,5-10 秒時長。採用單流 Transformer 架構,無需交叉注意力,喺單張 H100 上 2 秒即可生成 5 秒 256p 影片。

公開
*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman
AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman
Input
Podcast Host Speaking - Input 1
Output
Podcast Host Speaking

daVinci MagiHuman YouTube 影片

觀看社區演示同評測,了解 daVinci MagiHuman 嘅音影片生成能力

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

daVinci MagiHuman YouTube 影片

觀看社區演示同評測,了解 daVinci MagiHuman 嘅音影片生成能力

daVinci MagiHuman 在 X 上的熱門評價

睇吓大家喺 X (Twitter) 上對 daVinci MagiHuman 的評價

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply

什麼是 daVinci MagiHuman

Sand.ai 的 150 億參數開源音影片基礎模型,具有業界最佳唇語同步

150億參數量
1080p最高解析度
7種支援語言
2秒256p生成速度

daVinci MagiHuman 係一個 150 億參數嘅單流 Transformer,可從文本或影像聯合生成同步嘅影片同音訊,以 14.6% 嘅詞錯誤率喺 7 種語言中實現業界領先嘅唇語同步精度。

daVinci MagiHuman 強大功能

探索使 daVinci MagiHuman 喺音影片生成領域脫穎而出嘅先進功能

聯合音影片生成

使用統一嘅單流 Transformer 架構,僅通過自注意力機制喺單次推理中生成同步嘅影片同音訊,無需獨立嘅音訊管線。

業界領先嘅唇語同步

唇語同步嘅詞錯誤率僅為 14.6%,顯著優於 Ovi 1.1(40.45%)同 LTX 2.3(19.23%)等競品嘅語音準確率基準。

7 種語言語音支援

支援生成英語、中文(普通話同粵語)、日語、韓語、德語同法語嘅語音同步影片,具有自然嘅發音同唇部動作。

超快速生成

喺單張 H100 GPU 上僅需 2 秒即可生成 5 秒 256p 影片。8 步 DMD-2 蒸餾無需分類器自由引導即可保持質量。

雙輸入模式

從文本提示創建影片或將靜態影像動畫化。文生影片同圖生影片模式均支援可配置嘅寬高比、解析度同 5-10 秒時長。

高達 1080p 超解析度

通過潛空間超解析度管線生成 256p、540p、720p 或 1080p 影片,無需額外嘅 VAE 編解碼開銷即可高效輸出高解析度。

開源 Apache 2.0

完全以 Apache 2.0 許可證開源,包含完整嘅基礎權重、蒸餾模型、超解析度模型同推理代碼,可無限制商業使用。

以人為中心嘅卓越表現

專注於數字人生成,具有富有表現力嘅面部表情、逼真嘅肢體運動同跨幀一致嘅角色保持,適合專業嘅說話頭像內容。

常見問題

關於 daVinci MagiHuman 音影片生成嘅常見問題

daVinci MagiHuman 支援兩種主要輸入模式:文生影片(從文本提示生成帶同步音訊嘅影片)同圖生影片(將靜態影像動畫化為帶可選音訊嘅運動影片)。兩種模式均支援可配置嘅寬高比(16:9 橫屏、9:16 豎屏)、最高 1080p 解析度同 5-10 秒時長。
daVinci MagiHuman 支援 7 種語言嘅同步語音生成:英語、中文(普通話)、粵語、日語、韓語、德語同法語。該模型嘅唇語同步詞錯誤率為 14.6%,顯著優於 Ovi 1.1(40.45%)同 LTX 2.3(19.23%)等競品。
daVinci MagiHuman 支援多種解析度:256p(最快)、540p(超解析度)、720p 同 1080p(超解析度)。影片時長可從 5 秒到 10 秒以 1 秒為單位配置。支援橫屏(16:9)同豎屏(9:16)兩種寬高比。
喺單張 NVIDIA H100 GPU 上,daVinci MagiHuman 生成 5 秒 256p 影片僅需約 2 秒。更高解析度嘅生成時間更長:540p 約需 8 秒,1080p 約需 38.4 秒。呢個速度得益於 8 步 DMD-2 蒸餾技術,無需分類器自由引導。
係嘅,daVinci MagiHuman 由 Sand.ai 同 SII GAIR Lab 以 Apache 2.0 許可證完全開源。完整嘅技術棧可用,包括基礎模型權重、蒸餾模型、超解析度模型同推理代碼,允許無限制嘅商業使用、修改同分發。
daVinci MagiHuman 嘅獨特之處在於其單流 Transformer 架構,僅使用自注意力(無交叉注意力或多流路徑),喺單個模型中實現聯合音影片生成。它實現咗業界最佳嘅唇語同步精度(14.6% 詞錯誤率),支援 7 種語言語音,喺人類評估視覺質量中對 Ovi 1.1 嘅勝率達 80%。

如何使用 daVinci MagiHuman 文生影片

從文本描述生成帶同步音訊嘅影片

1
編寫提示詞
2
配置設定
3
生成影片

輸入您想創建嘅影片的詳細描述。包含主題、動作、語音內容同所需語言,以獲得最佳唇語同步效果。

如何使用 daVinci MagiHuman 圖生影片

將靜態影像動畫化為帶同步音訊嘅影片

1
上傳影像
2
添加提示詞同設定
3
生成動畫影片

上傳您想要動畫化嘅人物或場景參考影像。daVinci MagiHuman 擅長以人為中心嘅內容,具有逼真嘅面部表情同肢體運動。

價格

選擇適合您的計劃。沒有隱藏費用,沒有意外。

月付帳單

免費版

免費試用

0
一次性
USD
免費
32points
Up to 3 videos
Up to 32 images
Multi-Model Support
Text to Video
Image to Video
Video to Video
Consistent Character
AI Animation Generator
Templates & Effects
AI Video Enhancers
Interactive Community
Faster Generation Speed
No-watermark Outputs
More Camera Movement
Private Video Visibility
Copy Protection
Priority Support
熱門

Pro

Elevate your AI experience

29.99
1 月
USD
800
800points1 月
Up to 80 videos1 月
Up to 800 images1 月
3 tasks(Parallel Tasks)
Multi-Model Support
Text to Video
Image to Video
Video to Video
Consistent Character
AI Animation Generator
Templates & Effects
AI Video Enhancers
Interactive Community
Faster Generation Speed
No-watermark Outputs
More Camera Movement
Private Video Visibility
Copy Protection
Priority Support

Lite

Start your AI journey

9.99
1 月
USD
200points1 月
Up to 20 videos1 月
Up to 200 images1 月
3 tasks(Parallel Tasks)
Multi-Model Support
Text to Video
Image to Video
Video to Video
Consistent Character
AI Animation Generator
Templates & Effects
AI Video Enhancers
Interactive Community
Faster Generation Speed
No-watermark Outputs
More Camera Movement
Private Video Visibility
Copy Protection
Priority Support