🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman Generador de Texto/Imagen a Video con Sincronización de Audio
Crea videos con daVinci MagiHuman - un modelo fundamental de audio-video de código abierto de 15B de Sand.ai y SII GAIR Lab. Genera video y audio sincronizados desde texto o imágenes con precisión de lip sync líder en 7 idiomas. Hasta 1080p, 5-10 segundos. Arquitectura Transformer single-stream, video 5s 256p en solo 2 segundos en una H100.
daVinci MagiHuman Text to Video Gallery
Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.
Rainy Tokyo Night
A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman Image to Video Gallery
Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Videos de YouTube daVinci MagiHuman
Vea demostraciones y reseñas de la comunidad que muestran las capacidades de generación de audio-video de daVinci MagiHuman
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
Videos de YouTube daVinci MagiHuman
Vea demostraciones y reseñas de la comunidad que muestran las capacidades de generación de audio-video de daVinci MagiHuman
daVinci MagiHuman Reseñas populares en X
Mira lo que la gente dice sobre daVinci MagiHuman en X (Twitter)
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
Qué es daVinci MagiHuman
El modelo fundamental de audio-video de código abierto de 15B de Sand.ai con el mejor lip sync
daVinci MagiHuman es un Transformer single-stream de 15 mil millones de parámetros que genera conjuntamente video y audio sincronizados desde texto o imágenes, logrando una precisión de lip sync líder con una tasa de error de palabras del 14,6% en 7 idiomas.
Qué es daVinci MagiHuman
El modelo fundamental de audio-video de código abierto de 15B de Sand.ai con el mejor lip sync
daVinci MagiHuman es un Transformer single-stream de 15 mil millones de parámetros que genera conjuntamente video y audio sincronizados desde texto o imágenes, logrando una precisión de lip sync líder con una tasa de error de palabras del 14,6% en 7 idiomas.
Funcionalidades de daVinci MagiHuman
Descubre las capacidades avanzadas que hacen de daVinci MagiHuman excepcional para la generación de audio-video
Generación Conjunta de Audio-Video
Genera video y audio sincronizados en una sola pasada usando arquitectura Transformer single-stream con solo self-attention, sin pipeline de audio separado.
Lip Sync Líder del Sector
Tasa de error de palabras del 14,6% para sincronización labial, superando significativamente a Ovi 1.1 (40,45%) y LTX 2.3 (19,23%) en benchmarks de precisión de habla.
Soporte de Voz en 7 Idiomas
Genera videos sincronizados con habla en inglés, chino (mandarín y cantonés), japonés, coreano, alemán y francés con pronunciación natural.
Generación Ultra-Rápida
Produce un video 256p de 5 segundos en solo 2 segundos en una sola GPU H100. Destilación DMD-2 en 8 pasos sin necesidad de guidance sin clasificador.
Doble Modo de Entrada
Crea videos desde prompts de texto o anima imágenes estáticas. Ambos modos soportan relaciones de aspecto, resoluciones y duraciones de 5 a 10 segundos configurables.
Super-Resolución Hasta 1080p
Genera videos en 256p, 540p, 720p o 1080p mediante pipeline de super-resolución en espacio latente sin overhead adicional de decodificación-codificación VAE.
Código Abierto Apache 2.0
Completamente open-source bajo licencia Apache 2.0 con stack completo incluyendo pesos base, modelo destilado, modelo de super-resolución y código de inferencia para uso comercial sin restricciones.
Excelencia Centrada en el Humano
Especializado en generación de humanos digitales con expresiones faciales expresivas, movimientos corporales realistas y preservación consistente de personajes entre frames.
Preguntas Frecuentes
Preguntas comunes sobre la generación de audio-video de daVinci MagiHuman
¿Tienes más preguntas?
Cómo usar daVinci MagiHuman Texto a Video
Genera videos con audio sincronizado desde descripciones de texto
Ingresa una descripción detallada del video deseado. Incluye sujeto, acción, contenido de habla e idioma deseado para mejores resultados de lip sync.
Cómo usar daVinci MagiHuman Imagen a Video
Anima imágenes estáticas en videos con audio sincronizado
Sube una imagen de referencia de la persona o escena a animar. daVinci MagiHuman destaca en contenido centrado en humanos con expresiones faciales realistas.
Precios
Elige el plan que mejor se adapte a ti. Sin tarifas ocultas, sin sorpresas.
Facturación mensual