🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman Генератор Видео из Текста/Изображения с Синхронизацией Аудио
Создавайте видео с daVinci MagiHuman - моделью аудио-видео с открытым исходным кодом на 15B от Sand.ai и SII GAIR Lab. Генерируйте синхронизированное видео и аудио из текста или изображений с лучшей синхронизацией губ на 7 языках. До 1080p, 5-10 секунд. Однопоточная архитектура Transformer, видео 5с 256p всего за 2 секунды на одном H100.
daVinci MagiHuman Text to Video Gallery
Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.
Rainy Tokyo Night
A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman Image to Video Gallery
Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Видео daVinci MagiHuman на YouTube
Смотрите демонстрации и обзоры сообщества, демонстрирующие возможности генерации аудио-видео daVinci MagiHuman
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
Видео daVinci MagiHuman на YouTube
Смотрите демонстрации и обзоры сообщества, демонстрирующие возможности генерации аудио-видео daVinci MagiHuman
daVinci MagiHuman Популярные отзывы в X
Узнайте, что говорят о daVinci MagiHuman в X (Twitter)
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
Что такое daVinci MagiHuman
Открытая аудио-видео модель Sand.ai с 15B параметрами и лучшей синхронизацией губ
daVinci MagiHuman — это однопоточный Transformer с 15 миллиардами параметров, совместно генерирующий синхронизированное видео и аудио из текста или изображений, достигая лучшей в отрасли синхронизации губ с уровнем ошибок слов 14,6% на 7 языках.
Что такое daVinci MagiHuman
Открытая аудио-видео модель Sand.ai с 15B параметрами и лучшей синхронизацией губ
daVinci MagiHuman — это однопоточный Transformer с 15 миллиардами параметров, совместно генерирующий синхронизированное видео и аудио из текста или изображений, достигая лучшей в отрасли синхронизации губ с уровнем ошибок слов 14,6% на 7 языках.
Мощные функции daVinci MagiHuman
Откройте для себя передовые возможности, которые делают daVinci MagiHuman исключительным для генерации аудио-видео
Совместная Генерация Аудио-Видео
Генерируйте синхронизированное видео и аудио за один проход с помощью единой однопоточной архитектуры Transformer только с self-attention, без отдельного аудио-конвейера.
Лидирующая Синхронизация Губ
Уровень ошибок слов 14,6% для синхронизации губ, значительно превосходя Ovi 1.1 (40,45%) и LTX 2.3 (19,23%) в бенчмарках точности речи.
Поддержка Речи на 7 Языках
Генерируйте видео с синхронизированной речью на английском, китайском (мандаринском и кантонском), японском, корейском, немецком и французском с естественным произношением.
Сверхбыстрая Генерация
Создавайте 5-секундное видео 256p всего за 2 секунды на одном GPU H100. 8-шаговая дистилляция DMD-2 без classifier-free guidance при сохранении качества.
Двойной Режим Ввода
Создавайте видео из текстовых промптов или анимируйте статичные изображения. Оба режима поддерживают настраиваемые соотношения сторон, разрешения и длительность от 5 до 10 секунд.
Суперразрешение до 1080p
Генерируйте видео в 256p, 540p, 720p или 1080p через конвейер суперразрешения в латентном пространстве без дополнительных затрат на декодирование-кодирование VAE.
Открытый Код Apache 2.0
Полностью открытый исходный код под лицензией Apache 2.0 с полным стеком включая базовые веса, дистиллированную модель, модель суперразрешения и код инференса для неограниченного коммерческого использования.
Превосходство в Генерации Людей
Специализация на генерации цифровых людей с выразительной мимикой, реалистичными движениями тела и последовательным сохранением персонажей между кадрами.
Часто Задаваемые Вопросы
Распространённые вопросы о генерации аудио-видео daVinci MagiHuman
Остались вопросы?
Как использовать daVinci MagiHuman Текст в Видео
Генерируйте видео с синхронизированным аудио из текстовых описаний
Введите подробное описание желаемого видео. Укажите субъект, действие, содержание речи и желаемый язык для лучших результатов синхронизации губ.
Как использовать daVinci MagiHuman Изображение в Видео
Анимируйте статичные изображения в видео с синхронизированным аудио
Загрузите референсное изображение человека или сцены для анимации. daVinci MagiHuman превосходен для контента с людьми с реалистичной мимикой и движениями тела.
Цены
Выберите подходящий для вас план. Никаких скрытых комиссий, никаких сюрпризов.
Месячная оплата