Logo

daVinci MagiHuman 文/图生视频生成器 - 支援音频同步

使用 daVinci MagiHuman 创作视频 - Sand.ai 和 SII GAIR Lab 联合开发的 150 亿参数开源音视频基础模型。从文本或图像生成同步的视频和音频,具有业界领先的 7 语种唇语同步精度。支持最高 1080p 分辨率,5-10 秒时长。采用单流 Transformer 架构,无需交叉注意力,在单张 H100 上 2 秒即可生成 5 秒 256p 视频。

公开
*

daVinci MagiHuman 文生视频画廊

体验 daVinci MagiHuman 文生视频的电影级力量。从详细的文本描述创建带同步音频的精彩视频,具有业界领先的 7 语种唇语同步。

用 daVinci MagiHuman 创作
AI Video

雨夜东京

一位穿红色外套的女性在雨夜的霓虹灯东京小巷中漫步,倒影在湿润的鹅卵石上闪烁。

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

daVinci MagiHuman 图生视频画廊

使用 daVinci MagiHuman 将静态图像转换为动态视频。体验无缝的图生视频转换,具有逼真的面部表情、自然的肢体运动和同步的唇语音频。

用 daVinci MagiHuman 创作
Input
播客主持人说话 - Input 1
Output
播客主持人说话

daVinci MagiHuman YouTube 视频

观看社区演示和评测,了解 daVinci MagiHuman 的音视频生成能力

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

daVinci MagiHuman YouTube 视频

观看社区演示和评测,了解 daVinci MagiHuman 的音视频生成能力

daVinci MagiHuman 在 X 上的热门评价

看看大家在 X (Twitter) 上对 daVinci MagiHuman 的评价

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply

什么是 daVinci MagiHuman

Sand.ai 的 150 亿参数开源音视频基础模型,具有业界最佳唇语同步

150亿参数量
1080p最高分辨率
7种支持语言
2秒256p生成速度

daVinci MagiHuman 是一个 150 亿参数的单流 Transformer,可从文本或图像联合生成同步的视频和音频,以 14.6% 的词错误率在 7 种语言中实现业界领先的唇语同步精度。

daVinci MagiHuman 强大功能

探索使 daVinci MagiHuman 在音视频生成领域脱颖而出的先进功能

联合音视频生成

使用统一的单流 Transformer 架构,仅通过自注意力机制在单次推理中生成同步的视频和音频,无需独立的音频管线。

业界领先的唇语同步

唇语同步的词错误率仅为 14.6%,显著优于 Ovi 1.1(40.45%)和 LTX 2.3(19.23%)等竞品的语音准确率基准。

7 种语言语音支持

支持生成英语、中文(普通话和粤语)、日语、韩语、德语和法语的语音同步视频,具有自然的发音和唇部动作。

超快速生成

在单张 H100 GPU 上仅需 2 秒即可生成 5 秒 256p 视频。8 步 DMD-2 蒸馏无需分类器自由引导即可保持质量。

双输入模式

从文本提示创建视频或将静态图像动画化。文生视频和图生视频模式均支持可配置的宽高比、分辨率和 5-10 秒时长。

高达 1080p 超分辨率

通过潜空间超分辨率管线生成 256p、540p、720p 或 1080p 视频,无需额外的 VAE 编解码开销即可高效输出高分辨率。

开源 Apache 2.0

完全以 Apache 2.0 许可证开源,包含完整的基础权重、蒸馏模型、超分辨率模型和推理代码,可无限制商业使用。

以人为中心的卓越表现

专注于数字人生成,具有富有表现力的面部表情、逼真的肢体运动和跨帧一致的角色保持,适合专业的说话头像内容。

常见问题

关于 daVinci MagiHuman 音视频生成的常见问题

daVinci MagiHuman 支持两种主要输入模式:文生视频(从文本提示生成带同步音频的视频)和图生视频(将静态图像动画化为带可选音频的运动视频)。两种模式均支持可配置的宽高比(16:9 横屏、9:16 竖屏)、最高 1080p 分辨率和 5-10 秒时长。
daVinci MagiHuman 支持 7 种语言的同步语音生成:英语、中文(普通话)、粤语、日语、韩语、德语和法语。该模型的唇语同步词错误率为 14.6%,显著优于 Ovi 1.1(40.45%)和 LTX 2.3(19.23%)等竞品。
daVinci MagiHuman 支持多种分辨率:256p(最快)、540p(超分辨率)、720p 和 1080p(超分辨率)。视频时长可从 5 秒到 10 秒以 1 秒为单位配置。支持横屏(16:9)和竖屏(9:16)两种宽高比。
在单张 NVIDIA H100 GPU 上,daVinci MagiHuman 生成 5 秒 256p 视频仅需约 2 秒。更高分辨率的生成时间更长:540p 约需 8 秒,1080p 约需 38.4 秒。这一速度得益于 8 步 DMD-2 蒸馏技术,无需分类器自由引导。
是的,daVinci MagiHuman 由 Sand.ai 和 SII GAIR Lab 以 Apache 2.0 许可证完全开源。完整的技术栈可用,包括基础模型权重、蒸馏模型、超分辨率模型和推理代码,允许无限制的商业使用、修改和分发。
daVinci MagiHuman 的独特之处在于其单流 Transformer 架构,仅使用自注意力(无交叉注意力或多流路径),在单个模型中实现联合音视频生成。它实现了业界最佳的唇语同步精度(14.6% 词错误率),支持 7 种语言语音,在人类评估视觉质量中对 Ovi 1.1 的胜率达 80%。

如何使用 daVinci MagiHuman 文生视频

从文本描述生成带同步音频的视频

1
编写提示词
2
配置设置
3
生成视频

输入您想创建的视频的详细描述。包含主题、动作、语音内容和所需语言,以获得最佳唇语同步效果。

如何使用 daVinci MagiHuman 图生视频

将静态图像动画化为带同步音频的视频

1
上传图像
2
添加提示词和设置
3
生成动画视频

上传您想要动画化的人物或场景参考图像。daVinci MagiHuman 擅长以人为中心的内容,具有逼真的面部表情和肢体运动。

灵活的 AI 定价

按量付费或订阅计划。无隐藏费用,随时取消。

月付账单

免费版

免费试用

0
一次性
USD
免费
32
最多 3
最多 32
多模型支持
文本转视频
图片转视频
视频转视频
角色一致性
AI动画生成器
模板和特效
AI视频增强
互动社区
更快生成速度
无水印输出
更多相机运动
私密视频可见性
复制保护
优先客服支持
热门

专业版

提升您的AI体验

29.99
1 月
USD
800
8001 月
最多 801 月
最多 8001 月
3(并行任务数)
多模型支持
文本转视频
图片转视频
视频转视频
角色一致性
AI动画生成器
模板和特效
AI视频增强
互动社区
更快生成速度
无水印输出
更多相机运动
私密视频可见性
复制保护
优先客服支持

轻量版

开始您的AI之旅

9.99
1 月
USD
2001 月
最多 201 月
最多 2001 月
3(并行任务数)
多模型支持
文本转视频
图片转视频
视频转视频
角色一致性
AI动画生成器
模板和特效
AI视频增强
互动社区
更快生成速度
无水印输出
更多相机运动
私密视频可见性
复制保护
优先客服支持