Logo

daVinci MagiHuman Генератор Видео из Текста/Изображения с Синхронизацией Аудио

Создавайте видео с daVinci MagiHuman - моделью аудио-видео с открытым исходным кодом на 15B от Sand.ai и SII GAIR Lab. Генерируйте синхронизированное видео и аудио из текста или изображений с лучшей синхронизацией губ на 7 языках. До 1080p, 5-10 секунд. Однопоточная архитектура Transformer, видео 5с 256p всего за 2 секунды на одном H100.

Публичная
*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman
AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman
Input
Podcast Host Speaking - Input 1
Output
Podcast Host Speaking

Видео daVinci MagiHuman на YouTube

Смотрите демонстрации и обзоры сообщества, демонстрирующие возможности генерации аудио-видео daVinci MagiHuman

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

Видео daVinci MagiHuman на YouTube

Смотрите демонстрации и обзоры сообщества, демонстрирующие возможности генерации аудио-видео daVinci MagiHuman

daVinci MagiHuman Популярные отзывы в X

Узнайте, что говорят о daVinci MagiHuman в X (Twitter)

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply

Что такое daVinci MagiHuman

Открытая аудио-видео модель Sand.ai с 15B параметрами и лучшей синхронизацией губ

15BПараметры
1080pМакс. Разрешение
7Поддерж. Языков
Скорость 256p

daVinci MagiHuman — это однопоточный Transformer с 15 миллиардами параметров, совместно генерирующий синхронизированное видео и аудио из текста или изображений, достигая лучшей в отрасли синхронизации губ с уровнем ошибок слов 14,6% на 7 языках.

Мощные функции daVinci MagiHuman

Откройте для себя передовые возможности, которые делают daVinci MagiHuman исключительным для генерации аудио-видео

Совместная Генерация Аудио-Видео

Генерируйте синхронизированное видео и аудио за один проход с помощью единой однопоточной архитектуры Transformer только с self-attention, без отдельного аудио-конвейера.

Лидирующая Синхронизация Губ

Уровень ошибок слов 14,6% для синхронизации губ, значительно превосходя Ovi 1.1 (40,45%) и LTX 2.3 (19,23%) в бенчмарках точности речи.

Поддержка Речи на 7 Языках

Генерируйте видео с синхронизированной речью на английском, китайском (мандаринском и кантонском), японском, корейском, немецком и французском с естественным произношением.

Сверхбыстрая Генерация

Создавайте 5-секундное видео 256p всего за 2 секунды на одном GPU H100. 8-шаговая дистилляция DMD-2 без classifier-free guidance при сохранении качества.

Двойной Режим Ввода

Создавайте видео из текстовых промптов или анимируйте статичные изображения. Оба режима поддерживают настраиваемые соотношения сторон, разрешения и длительность от 5 до 10 секунд.

Суперразрешение до 1080p

Генерируйте видео в 256p, 540p, 720p или 1080p через конвейер суперразрешения в латентном пространстве без дополнительных затрат на декодирование-кодирование VAE.

Открытый Код Apache 2.0

Полностью открытый исходный код под лицензией Apache 2.0 с полным стеком включая базовые веса, дистиллированную модель, модель суперразрешения и код инференса для неограниченного коммерческого использования.

Превосходство в Генерации Людей

Специализация на генерации цифровых людей с выразительной мимикой, реалистичными движениями тела и последовательным сохранением персонажей между кадрами.

Часто Задаваемые Вопросы

Распространённые вопросы о генерации аудио-видео daVinci MagiHuman

daVinci MagiHuman поддерживает два основных режима: Текст-в-Видео (генерация видео с синхронизированным аудио из текстовых промптов) и Изображение-в-Видео (анимация статичных изображений с опциональным аудио). Оба режима поддерживают настраиваемые соотношения сторон (16:9 альбомный, 9:16 портретный), разрешения до 1080p и длительность от 5 до 10 секунд.
daVinci MagiHuman поддерживает синхронизированную генерацию речи на 7 языках: английский, китайский (мандаринский), кантонский, японский, корейский, немецкий и французский. Модель достигает уровня ошибок слов 14,6% для синхронизации губ, значительно превосходя Ovi 1.1 (40,45%) и LTX 2.3 (19,23%).
daVinci MagiHuman поддерживает несколько разрешений: 256p (самое быстрое), 540p (суперразрешение), 720p и 1080p (суперразрешение). Длительность видео настраивается от 5 до 10 секунд с шагом в 1 секунду. Поддерживаются альбомный (16:9) и портретный (9:16) форматы.
На одном GPU NVIDIA H100 daVinci MagiHuman генерирует 5-секундное видео 256p примерно за 2 секунды. Для более высоких разрешений: 540p занимает около 8 секунд, 1080p — около 38,4 секунд. Эта скорость достигается благодаря 8-шаговой дистилляции DMD-2 без classifier-free guidance.
Да, daVinci MagiHuman полностью открыт под лицензией Apache 2.0 от Sand.ai и SII GAIR Lab. Доступен полный стек, включая базовые веса модели, дистиллированную модель, модель суперразрешения и код инференса для неограниченного коммерческого использования.
daVinci MagiHuman выделяется уникальной однопоточной архитектурой Transformer, использующей только self-attention (без cross-attention или многопоточных путей), что позволяет совместно генерировать аудио и видео в одной модели. Достигает лучшей точности синхронизации губ (14,6% WER), поддерживает 7 языков и показывает 80% побед против Ovi 1.1 в человеческой оценке.

Как использовать daVinci MagiHuman Текст в Видео

Генерируйте видео с синхронизированным аудио из текстовых описаний

1
Напишите ваш промпт
2
Настройте параметры
3
Сгенерируйте видео

Введите подробное описание желаемого видео. Укажите субъект, действие, содержание речи и желаемый язык для лучших результатов синхронизации губ.

Как использовать daVinci MagiHuman Изображение в Видео

Анимируйте статичные изображения в видео с синхронизированным аудио

1
Загрузите изображение
2
Добавьте промпт и настройки
3
Сгенерируйте анимированное видео

Загрузите референсное изображение человека или сцены для анимации. daVinci MagiHuman превосходен для контента с людьми с реалистичной мимикой и движениями тела.

Цены

Выберите подходящий для вас план. Никаких скрытых комиссий, никаких сюрпризов.

Месячная оплата

Бесплатно

Попробуйте перед покупкой

0
Одноразово
USD
Бесплатно
32points
Up to 3 videos
Up to 32 images
Multi-Model Support
Text to Video
Image to Video
Video to Video
Consistent Character
AI Animation Generator
Templates & Effects
AI Video Enhancers
Interactive Community
Faster Generation Speed
No-watermark Outputs
More Camera Movement
Private Video Visibility
Copy Protection
Priority Support
Популярный

Pro

Elevate your AI experience

29.99
1 месяц
USD
800
800points1 месяц
Up to 80 videos1 месяц
Up to 800 images1 месяц
3 tasks(Parallel Tasks)
Multi-Model Support
Text to Video
Image to Video
Video to Video
Consistent Character
AI Animation Generator
Templates & Effects
AI Video Enhancers
Interactive Community
Faster Generation Speed
No-watermark Outputs
More Camera Movement
Private Video Visibility
Copy Protection
Priority Support

Lite

Start your AI journey

9.99
1 месяц
USD
200points1 месяц
Up to 20 videos1 месяц
Up to 200 images1 месяц
3 tasks(Parallel Tasks)
Multi-Model Support
Text to Video
Image to Video
Video to Video
Consistent Character
AI Animation Generator
Templates & Effects
AI Video Enhancers
Interactive Community
Faster Generation Speed
No-watermark Outputs
More Camera Movement
Private Video Visibility
Copy Protection
Priority Support