Logo
視頻模型

daVinci MagiHuman 文/圖生影片生成器 - 支援音訊同步

使用 daVinci MagiHuman 創作影片 - Sand.ai 同 SII GAIR Lab 聯合開發嘅 150 億參數開源音影片基礎模型。從文本或影像生成同步嘅影片同音訊,具有業界領先嘅 7 語種唇語同步精度。支持最高 1080p 解析度,5-10 秒時長。採用單流 Transformer 架構,無需交叉注意力,喺單張 H100 上 2 秒即可生成 5 秒 256p 影片。

/video/text-to-video
公開
*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman
AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Source Feeds01 Inputs
Podcast Host Speaking - Input 1
Program · On AirAI · Generated
Output
Transcript · 01

Podcast Host Speaking

daVinci MagiHuman YouTube 影片

觀看社區演示同評測,了解 daVinci MagiHuman 嘅音影片生成能力

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

daVinci MagiHuman YouTube 影片

觀看社區演示同評測,了解 daVinci MagiHuman 嘅音影片生成能力

daVinci MagiHuman 在 X 上的熱門評價

睇吓大家喺 X (Twitter) 上對 daVinci MagiHuman 的評價

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply
Reel · Specifications

什麼是 daVinci MagiHuman

Sand.ai 的 150 億參數開源音影片基礎模型,具有業界最佳唇語同步

  1. · 01150參數量
  2. · 021080p最高解析度
  3. · 037支援語言
  4. · 042256p生成速度

daVinci MagiHuman 係一個 150 億參數嘅單流 Transformer,可從文本或影像聯合生成同步嘅影片同音訊,以 14.6% 嘅詞錯誤率喺 7 種語言中實現業界領先嘅唇語同步精度。

Reel · Capabilities

daVinci MagiHuman 強大功能

探索使 daVinci MagiHuman 喺音影片生成領域脫穎而出嘅先進功能

  1. Feature 01 / 08

    聯合音影片生成

    使用統一嘅單流 Transformer 架構,僅通過自注意力機制喺單次推理中生成同步嘅影片同音訊,無需獨立嘅音訊管線。

  2. Feature 02 / 08

    業界領先嘅唇語同步

    唇語同步嘅詞錯誤率僅為 14.6%,顯著優於 Ovi 1.1(40.45%)同 LTX 2.3(19.23%)等競品嘅語音準確率基準。

  3. Feature 03 / 08

    7 種語言語音支援

    支援生成英語、中文(普通話同粵語)、日語、韓語、德語同法語嘅語音同步影片,具有自然嘅發音同唇部動作。

  4. Feature 04 / 08

    超快速生成

    喺單張 H100 GPU 上僅需 2 秒即可生成 5 秒 256p 影片。8 步 DMD-2 蒸餾無需分類器自由引導即可保持質量。

  5. Feature 05 / 08

    雙輸入模式

    從文本提示創建影片或將靜態影像動畫化。文生影片同圖生影片模式均支援可配置嘅寬高比、解析度同 5-10 秒時長。

  6. Feature 06 / 08

    高達 1080p 超解析度

    通過潛空間超解析度管線生成 256p、540p、720p 或 1080p 影片,無需額外嘅 VAE 編解碼開銷即可高效輸出高解析度。

  7. Feature 07 / 08

    開源 Apache 2.0

    完全以 Apache 2.0 許可證開源,包含完整嘅基礎權重、蒸餾模型、超解析度模型同推理代碼,可無限制商業使用。

  8. Feature 08 / 08

    以人為中心嘅卓越表現

    專注於數字人生成,具有富有表現力嘅面部表情、逼真嘅肢體運動同跨幀一致嘅角色保持,適合專業嘅說話頭像內容。

FAQ

常見問題

關於 daVinci MagiHuman 音影片生成嘅常見問題

daVinci MagiHuman 支援兩種主要輸入模式:文生影片(從文本提示生成帶同步音訊嘅影片)同圖生影片(將靜態影像動畫化為帶可選音訊嘅運動影片)。兩種模式均支援可配置嘅寬高比(16:9 橫屏、9:16 豎屏)、最高 1080p 解析度同 5-10 秒時長。
daVinci MagiHuman 支援 7 種語言嘅同步語音生成:英語、中文(普通話)、粵語、日語、韓語、德語同法語。該模型嘅唇語同步詞錯誤率為 14.6%,顯著優於 Ovi 1.1(40.45%)同 LTX 2.3(19.23%)等競品。
daVinci MagiHuman 支援多種解析度:256p(最快)、540p(超解析度)、720p 同 1080p(超解析度)。影片時長可從 5 秒到 10 秒以 1 秒為單位配置。支援橫屏(16:9)同豎屏(9:16)兩種寬高比。
喺單張 NVIDIA H100 GPU 上,daVinci MagiHuman 生成 5 秒 256p 影片僅需約 2 秒。更高解析度嘅生成時間更長:540p 約需 8 秒,1080p 約需 38.4 秒。呢個速度得益於 8 步 DMD-2 蒸餾技術,無需分類器自由引導。
係嘅,daVinci MagiHuman 由 Sand.ai 同 SII GAIR Lab 以 Apache 2.0 許可證完全開源。完整嘅技術棧可用,包括基礎模型權重、蒸餾模型、超解析度模型同推理代碼,允許無限制嘅商業使用、修改同分發。
daVinci MagiHuman 嘅獨特之處在於其單流 Transformer 架構,僅使用自注意力(無交叉注意力或多流路徑),喺單個模型中實現聯合音影片生成。它實現咗業界最佳嘅唇語同步精度(14.6% 詞錯誤率),支援 7 種語言語音,喺人類評估視覺質量中對 Ovi 1.1 嘅勝率達 80%。

如何使用 daVinci MagiHuman 文生影片

從文本描述生成帶同步音訊嘅影片

編寫提示詞

輸入您想創建嘅影片的詳細描述。包含主題、動作、語音內容同所需語言,以獲得最佳唇語同步效果。

如何使用 daVinci MagiHuman 圖生影片

將靜態影像動畫化為帶同步音訊嘅影片

上傳影像

上傳您想要動畫化嘅人物或場景參考影像。daVinci MagiHuman 擅長以人為中心嘅內容,具有逼真嘅面部表情同肢體運動。

Pricing · Choose Yours

價格

選擇適合您的計劃。沒有隱藏費用,沒有意外。

一次性 支持加密貨幣支付 (BTC, USDT, ETH, 350+)

月付帳單

免費版

免費試用

0
一次性
USD
免費
32積分
3 影片
32 圖片
多模型支援
文字轉影片
圖片轉影片
影片轉影片
角色一致性
AI 動畫生成器
模板與特效
AI 影片增強
互動社區
更快生成速度
無浮水印輸出
更多鏡頭運動
影片隱私控制
複製保護
優先支援
熱門

專業版

提升您的AI體驗

29.99
1 月
USD
800
800積分1 月
80 影片1 月
800 圖片1 月
3 任務(並行任務)
多模型支援
文字轉影片
圖片轉影片
影片轉影片
角色一致性
AI 動畫生成器
模板與特效
AI 影片增強
互動社區
更快生成速度
無浮水印輸出
更多鏡頭運動
影片隱私控制
複製保護
優先支援

輕量版

開始您的AI之旅

9.99
1 月
USD
200積分1 月
20 影片1 月
200 圖片1 月
3 任務(並行任務)
多模型支援
文字轉影片
圖片轉影片
影片轉影片
角色一致性
AI 動畫生成器
模板與特效
AI 影片增強
互動社區
更快生成速度
無浮水印輸出
更多鏡頭運動
影片隱私控制
複製保護
優先支援