Logo
影片模型

daVinci MagiHuman 文/圖生影片生成器 - 支援音訊同步

使用 daVinci MagiHuman 創作影片 - Sand.ai 和 SII GAIR Lab 聯合開發的 150 億參數開源音影片基礎模型。從文本或影像生成同步的影片和音訊,具有業界領先的 7 語種唇語同步精度。支持最高 1080p 解析度,5-10 秒時長。採用單流 Transformer 架構,無需交叉注意力,在單張 H100 上 2 秒即可生成 5 秒 256p 影片。

/video/text-to-video
公開
*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman
AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Source Feeds01 Inputs
Podcast Host Speaking - Input 1
Program · On AirAI · Generated
Output
Transcript · 01

Podcast Host Speaking

daVinci MagiHuman YouTube 影片

觀看社區演示和評測,了解 daVinci MagiHuman 的音影片生成能力

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

daVinci MagiHuman YouTube 影片

觀看社區演示和評測,了解 daVinci MagiHuman 的音影片生成能力

daVinci MagiHuman 在 X 上的熱門評價

看看大家在 X (Twitter) 上對 daVinci MagiHuman 的評價

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply
Reel · Specifications

什麼是 daVinci MagiHuman

Sand.ai 的 150 億參數開源音影片基礎模型,具有業界最佳唇語同步

  1. · 01150參數量
  2. · 021080p最高解析度
  3. · 037支援語言
  4. · 042256p生成速度

daVinci MagiHuman 是一個 150 億參數的單流 Transformer,可從文本或影像聯合生成同步的影片和音訊,以 14.6% 的詞錯誤率在 7 種語言中實現業界領先的唇語同步精度。

Reel · Capabilities

daVinci MagiHuman 強大功能

探索使 daVinci MagiHuman 在音影片生成領域脫穎而出的先進功能

  1. Feature 01 / 08

    聯合音影片生成

    使用統一的單流 Transformer 架構,僅通過自注意力機制在單次推理中生成同步的影片和音訊,無需獨立的音訊管線。

  2. Feature 02 / 08

    業界領先的唇語同步

    唇語同步的詞錯誤率僅為 14.6%,顯著優於 Ovi 1.1(40.45%)和 LTX 2.3(19.23%)等競品的語音準確率基準。

  3. Feature 03 / 08

    7 種語言語音支援

    支援生成英語、中文(普通話和粵語)、日語、韓語、德語和法語的語音同步影片,具有自然的發音和唇部動作。

  4. Feature 04 / 08

    超快速生成

    在單張 H100 GPU 上僅需 2 秒即可生成 5 秒 256p 影片。8 步 DMD-2 蒸餾無需分類器自由引導即可保持質量。

  5. Feature 05 / 08

    雙輸入模式

    從文本提示創建影片或將靜態影像動畫化。文生影片和圖生影片模式均支援可配置的寬高比、解析度和 5-10 秒時長。

  6. Feature 06 / 08

    高達 1080p 超解析度

    通過潛空間超解析度管線生成 256p、540p、720p 或 1080p 影片,無需額外的 VAE 編解碼開銷即可高效輸出高解析度。

  7. Feature 07 / 08

    開源 Apache 2.0

    完全以 Apache 2.0 許可證開源,包含完整的基礎權重、蒸餾模型、超解析度模型和推理代碼,可無限制商業使用。

  8. Feature 08 / 08

    以人為中心的卓越表現

    專注於數字人生成,具有富有表現力的面部表情、逼真的肢體運動和跨幀一致的角色保持,適合專業的說話頭像內容。

FAQ

常見問題

關於 daVinci MagiHuman 音影片生成的常見問題

daVinci MagiHuman 支援兩種主要輸入模式:文生影片(從文本提示生成帶同步音訊的影片)和圖生影片(將靜態影像動畫化為帶可選音訊的運動影片)。兩種模式均支援可配置的寬高比(16:9 橫屏、9:16 豎屏)、最高 1080p 解析度和 5-10 秒時長。
daVinci MagiHuman 支援 7 種語言的同步語音生成:英語、中文(普通話)、粵語、日語、韓語、德語和法語。該模型的唇語同步詞錯誤率為 14.6%,顯著優於 Ovi 1.1(40.45%)和 LTX 2.3(19.23%)等競品。
daVinci MagiHuman 支援多種解析度:256p(最快)、540p(超解析度)、720p 和 1080p(超解析度)。影片時長可從 5 秒到 10 秒以 1 秒為單位配置。支援橫屏(16:9)和豎屏(9:16)兩種寬高比。
在單張 NVIDIA H100 GPU 上,daVinci MagiHuman 生成 5 秒 256p 影片僅需約 2 秒。更高解析度的生成時間更長:540p 約需 8 秒,1080p 約需 38.4 秒。這一速度得益於 8 步 DMD-2 蒸餾技術,無需分類器自由引導。
是的,daVinci MagiHuman 由 Sand.ai 和 SII GAIR Lab 以 Apache 2.0 許可證完全開源。完整的技術棧可用,包括基礎模型權重、蒸餾模型、超解析度模型和推理代碼,允許無限制的商業使用、修改和分發。
daVinci MagiHuman 的獨特之處在於其單流 Transformer 架構,僅使用自注意力(無交叉注意力或多流路徑),在單個模型中實現聯合音影片生成。它實現了業界最佳的唇語同步精度(14.6% 詞錯誤率),支援 7 種語言語音,在人類評估視覺質量中對 Ovi 1.1 的勝率達 80%。

如何使用 daVinci MagiHuman 文生影片

從文本描述生成帶同步音訊的影片

編寫提示詞

輸入您想創建的影片的詳細描述。包含主題、動作、語音內容和所需語言,以獲得最佳唇語同步效果。

如何使用 daVinci MagiHuman 圖生影片

將靜態影像動畫化為帶同步音訊的影片

上傳影像

上傳您想要動畫化的人物或場景參考影像。daVinci MagiHuman 擅長以人為中心的內容,具有逼真的面部表情和肢體運動。

Pricing · Choose Yours

價格

選擇適合您的方案。沒有隱藏費用,沒有意外。

一次性 支持加密貨幣支付 (BTC, USDT, ETH, 350+)

月付帳單

免費版

免費試用

0
一次性
USD
免費
32點數
3 影片
32 圖片
多模型支援
文字轉影片
圖片轉影片
影片轉影片
角色一致性
AI 動畫生成器
模板與特效
AI 影片增強
互動社區
更快生成速度
無浮水印輸出
更多鏡頭運動
影片隱私控制
複製保護
優先支援
熱門

專業版

提升您的AI體驗

29.99
1 月
USD
800
800點數1 月
80 影片1 月
800 圖片1 月
3 任務(並行任務)
多模型支援
文字轉影片
圖片轉影片
影片轉影片
角色一致性
AI 動畫生成器
模板與特效
AI 影片增強
互動社區
更快生成速度
無浮水印輸出
更多鏡頭運動
影片隱私控制
複製保護
優先支援

輕量版

開始您的AI之旅

9.99
1 月
USD
200點數1 月
20 影片1 月
200 圖片1 月
3 任務(並行任務)
多模型支援
文字轉影片
圖片轉影片
影片轉影片
角色一致性
AI 動畫生成器
模板與特效
AI 影片增強
互動社區
更快生成速度
無浮水印輸出
更多鏡頭運動
影片隱私控制
複製保護
優先支援