Logo
视频模型

daVinci MagiHuman 文/图生视频生成器 - 支援音频同步

使用 daVinci MagiHuman 创作视频 - Sand.ai 和 SII GAIR Lab 联合开发的 150 亿参数开源音视频基础模型。从文本或图像生成同步的视频和音频,具有业界领先的 7 语种唇语同步精度。支持最高 1080p 分辨率,5-10 秒时长。采用单流 Transformer 架构,无需交叉注意力,在单张 H100 上 2 秒即可生成 5 秒 256p 视频。

/video/text-to-video
公开
*

daVinci MagiHuman 文生视频画廊

体验 daVinci MagiHuman 文生视频的电影级力量。从详细的文本描述创建带同步音频的精彩视频,具有业界领先的 7 语种唇语同步。

用 daVinci MagiHuman 创作
AI Video

雨夜东京

一位穿红色外套的女性在雨夜的霓虹灯东京小巷中漫步,倒影在湿润的鹅卵石上闪烁。

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

Live PipelineTake 01 / 01

daVinci MagiHuman 图生视频画廊

使用 daVinci MagiHuman 将静态图像转换为动态视频。体验无缝的图生视频转换,具有逼真的面部表情、自然的肢体运动和同步的唇语音频。

Source Feeds01 Inputs
播客主持人说话 - Input 1
Program · On AirAI · Generated
Output
Transcript · 01

播客主持人说话

daVinci MagiHuman YouTube 视频

观看社区演示和评测,了解 daVinci MagiHuman 的音视频生成能力

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

daVinci MagiHuman YouTube 视频

观看社区演示和评测,了解 daVinci MagiHuman 的音视频生成能力

daVinci MagiHuman 在 X 上的热门评价

看看大家在 X (Twitter) 上对 daVinci MagiHuman 的评价

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply
Reel · Specifications

什么是 daVinci MagiHuman

Sand.ai 的 150 亿参数开源音视频基础模型,具有业界最佳唇语同步

  1. · 01150亿参数量
  2. · 021080p最高分辨率
  3. · 037支持语言
  4. · 042256p生成速度

daVinci MagiHuman 是一个 150 亿参数的单流 Transformer,可从文本或图像联合生成同步的视频和音频,以 14.6% 的词错误率在 7 种语言中实现业界领先的唇语同步精度。

Reel · Capabilities

daVinci MagiHuman 强大功能

探索使 daVinci MagiHuman 在音视频生成领域脱颖而出的先进功能

  1. Feature 01 / 08

    联合音视频生成

    使用统一的单流 Transformer 架构,仅通过自注意力机制在单次推理中生成同步的视频和音频,无需独立的音频管线。

  2. Feature 02 / 08

    业界领先的唇语同步

    唇语同步的词错误率仅为 14.6%,显著优于 Ovi 1.1(40.45%)和 LTX 2.3(19.23%)等竞品的语音准确率基准。

  3. Feature 03 / 08

    7 种语言语音支持

    支持生成英语、中文(普通话和粤语)、日语、韩语、德语和法语的语音同步视频,具有自然的发音和唇部动作。

  4. Feature 04 / 08

    超快速生成

    在单张 H100 GPU 上仅需 2 秒即可生成 5 秒 256p 视频。8 步 DMD-2 蒸馏无需分类器自由引导即可保持质量。

  5. Feature 05 / 08

    双输入模式

    从文本提示创建视频或将静态图像动画化。文生视频和图生视频模式均支持可配置的宽高比、分辨率和 5-10 秒时长。

  6. Feature 06 / 08

    高达 1080p 超分辨率

    通过潜空间超分辨率管线生成 256p、540p、720p 或 1080p 视频,无需额外的 VAE 编解码开销即可高效输出高分辨率。

  7. Feature 07 / 08

    开源 Apache 2.0

    完全以 Apache 2.0 许可证开源,包含完整的基础权重、蒸馏模型、超分辨率模型和推理代码,可无限制商业使用。

  8. Feature 08 / 08

    以人为中心的卓越表现

    专注于数字人生成,具有富有表现力的面部表情、逼真的肢体运动和跨帧一致的角色保持,适合专业的说话头像内容。

FAQ

常见问题

关于 daVinci MagiHuman 音视频生成的常见问题

daVinci MagiHuman 支持两种主要输入模式:文生视频(从文本提示生成带同步音频的视频)和图生视频(将静态图像动画化为带可选音频的运动视频)。两种模式均支持可配置的宽高比(16:9 横屏、9:16 竖屏)、最高 1080p 分辨率和 5-10 秒时长。
daVinci MagiHuman 支持 7 种语言的同步语音生成:英语、中文(普通话)、粤语、日语、韩语、德语和法语。该模型的唇语同步词错误率为 14.6%,显著优于 Ovi 1.1(40.45%)和 LTX 2.3(19.23%)等竞品。
daVinci MagiHuman 支持多种分辨率:256p(最快)、540p(超分辨率)、720p 和 1080p(超分辨率)。视频时长可从 5 秒到 10 秒以 1 秒为单位配置。支持横屏(16:9)和竖屏(9:16)两种宽高比。
在单张 NVIDIA H100 GPU 上,daVinci MagiHuman 生成 5 秒 256p 视频仅需约 2 秒。更高分辨率的生成时间更长:540p 约需 8 秒,1080p 约需 38.4 秒。这一速度得益于 8 步 DMD-2 蒸馏技术,无需分类器自由引导。
是的,daVinci MagiHuman 由 Sand.ai 和 SII GAIR Lab 以 Apache 2.0 许可证完全开源。完整的技术栈可用,包括基础模型权重、蒸馏模型、超分辨率模型和推理代码,允许无限制的商业使用、修改和分发。
daVinci MagiHuman 的独特之处在于其单流 Transformer 架构,仅使用自注意力(无交叉注意力或多流路径),在单个模型中实现联合音视频生成。它实现了业界最佳的唇语同步精度(14.6% 词错误率),支持 7 种语言语音,在人类评估视觉质量中对 Ovi 1.1 的胜率达 80%。

如何使用 daVinci MagiHuman 文生视频

从文本描述生成带同步音频的视频

编写提示词

输入您想创建的视频的详细描述。包含主题、动作、语音内容和所需语言,以获得最佳唇语同步效果。

如何使用 daVinci MagiHuman 图生视频

将静态图像动画化为带同步音频的视频

上传图像

上传您想要动画化的人物或场景参考图像。daVinci MagiHuman 擅长以人为中心的内容,具有逼真的面部表情和肢体运动。

Pricing · Choose Yours

灵活的 AI 定价

按量付费或订阅计划。无隐藏费用,随时取消。

一次性 支持加密货币支付 (BTC, USDT, ETH, 350+)

月付账单

免费版

免费试用

0
一次性
USD
免费
32积分
最多 3 视频
最多 32 图片
多模型支持
文字转视频
图片转视频
视频转视频
角色一致性
AI 动画生成器
模板与特效
AI 视频增强
互动社区
更快生成速度
无水印输出
更多镜头运动
视频隐私控制
复制保护
优先支持
热门

专业版

提升您的AI体验

29.99
1 月
USD
800
800积分1 月
最多 80 视频1 月
最多 800 图片1 月
3 任务(并行任务)
多模型支持
文字转视频
图片转视频
视频转视频
角色一致性
AI 动画生成器
模板与特效
AI 视频增强
互动社区
更快生成速度
无水印输出
更多镜头运动
视频隐私控制
复制保护
优先支持

轻量版

开始您的AI之旅

9.99
1 月
USD
200积分1 月
最多 20 视频1 月
最多 200 图片1 月
3 任务(并行任务)
多模型支持
文字转视频
图片转视频
视频转视频
角色一致性
AI 动画生成器
模板与特效
AI 视频增强
互动社区
更快生成速度
无水印输出
更多镜头运动
视频隐私控制
复制保护
优先支持