Modelos de video

daVinci MagiHuman Generador de Texto/Imagen a Video con Sincronización de Audio

Crea videos con daVinci MagiHuman - un modelo fundamental de audio-video de código abierto de 15B de Sand.ai y SII GAIR Lab. Genera video y audio sincronizados desde texto o imágenes con precisión de lip sync líder en 7 idiomas. Hasta 1080p, 5-10 segundos. Arquitectura Transformer single-stream, video 5s 256p en solo 2 segundos en una H100.

/video/text-to-video

Público

Traducir a English

Optimizar prompt

*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman

AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman

Source Feeds01 Inputs

Podcast Host Speaking - Input 1

Pipeline

00%

Program · On AirAI · Generated

Output

Transcript · 01

Podcast Host Speaking

Videos de YouTube daVinci MagiHuman

Vea demostraciones y reseñas de la comunidad que muestran las capacidades de generación de audio-video de daVinci MagiHuman

daVinci MagiHuman Reseñas populares en X

Mira lo que la gente dice sobre daVinci MagiHuman en X (Twitter)

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

Reel · Specifications

Qué es daVinci MagiHuman

El modelo fundamental de audio-video de código abierto de 15B de Sand.ai con el mejor lip sync

· 0115BParámetros
· 021080pResolución Máx
· 037Idiomas Soportados
· 042sVelocidad 256p

daVinci MagiHuman es un Transformer single-stream de 15 mil millones de parámetros que genera conjuntamente video y audio sincronizados desde texto o imágenes, logrando una precisión de lip sync líder con una tasa de error de palabras del 14,6% en 7 idiomas.

Reel · Capabilities

Funcionalidades de daVinci MagiHuman

Descubre las capacidades avanzadas que hacen de daVinci MagiHuman excepcional para la generación de audio-video

Feature 01 / 08
Generación Conjunta de Audio-Video
Genera video y audio sincronizados en una sola pasada usando arquitectura Transformer single-stream con solo self-attention, sin pipeline de audio separado.
Feature 02 / 08
Lip Sync Líder del Sector
Tasa de error de palabras del 14,6% para sincronización labial, superando significativamente a Ovi 1.1 (40,45%) y LTX 2.3 (19,23%) en benchmarks de precisión de habla.
Feature 03 / 08
Soporte de Voz en 7 Idiomas
Genera videos sincronizados con habla en inglés, chino (mandarín y cantonés), japonés, coreano, alemán y francés con pronunciación natural.
Feature 04 / 08
Generación Ultra-Rápida
Produce un video 256p de 5 segundos en solo 2 segundos en una sola GPU H100. Destilación DMD-2 en 8 pasos sin necesidad de guidance sin clasificador.
Feature 05 / 08
Doble Modo de Entrada
Crea videos desde prompts de texto o anima imágenes estáticas. Ambos modos soportan relaciones de aspecto, resoluciones y duraciones de 5 a 10 segundos configurables.
Feature 06 / 08
Super-Resolución Hasta 1080p
Genera videos en 256p, 540p, 720p o 1080p mediante pipeline de super-resolución en espacio latente sin overhead adicional de decodificación-codificación VAE.
Feature 07 / 08
Código Abierto Apache 2.0
Completamente open-source bajo licencia Apache 2.0 con stack completo incluyendo pesos base, modelo destilado, modelo de super-resolución y código de inferencia para uso comercial sin restricciones.
Feature 08 / 08
Excelencia Centrada en el Humano
Especializado en generación de humanos digitales con expresiones faciales expresivas, movimientos corporales realistas y preservación consistente de personajes entre frames.

FAQ

Preguntas Frecuentes

Preguntas comunes sobre la generación de audio-video de daVinci MagiHuman

¿Tienes más preguntas?

[email protected]

Únete a Discord Enviar ticket

daVinci MagiHuman soporta dos modos principales: Texto-a-Video (generación de videos con audio sincronizado desde prompts de texto) e Imagen-a-Video (animación de imágenes estáticas con audio opcional). Ambos modos soportan relaciones de aspecto configurables (16:9 paisaje, 9:16 retrato), resoluciones hasta 1080p y duraciones de 5 a 10 segundos.

daVinci MagiHuman soporta generación de voz sincronizada en 7 idiomas: inglés, chino (mandarín), cantonés, japonés, coreano, alemán y francés. El modelo alcanza una tasa de error de palabras del 14,6% para lip sync, superando significativamente a Ovi 1.1 (40,45%) y LTX 2.3 (19,23%).

daVinci MagiHuman soporta múltiples resoluciones: 256p (más rápido), 540p (super-resolución), 720p y 1080p (super-resolución). La duración del video puede configurarse de 5 a 10 segundos con granularidad de 1 segundo. Se soportan tanto formato paisaje (16:9) como retrato (9:16).

En una sola GPU NVIDIA H100, daVinci MagiHuman genera un video 256p de 5 segundos en aproximadamente 2 segundos. Para resoluciones superiores: 540p toma unos 8 segundos y 1080p unos 38,4 segundos. Esta velocidad se logra mediante destilación DMD-2 en 8 pasos sin classifier-free guidance.

Sí, daVinci MagiHuman es completamente de código abierto bajo licencia Apache 2.0 por Sand.ai y SII GAIR Lab. El stack completo está disponible incluyendo pesos del modelo base, modelo destilado, modelo de super-resolución y código de inferencia para uso comercial sin restricciones.

daVinci MagiHuman se destaca por su arquitectura Transformer single-stream que usa solo self-attention (sin cross-attention ni rutas multi-stream), permitiendo la generación conjunta de audio-video en un solo modelo. Alcanza la mejor precisión de lip sync (14,6% WER), soporta 7 idiomas y obtiene una tasa de victoria del 80% contra Ovi 1.1 en evaluación humana.

Cómo usar daVinci MagiHuman Texto a Video

Genera videos con audio sincronizado desde descripciones de texto

Escribe tu Prompt

Ingresa una descripción detallada del video deseado. Incluye sujeto, acción, contenido de habla e idioma deseado para mejores resultados de lip sync.

Cómo usar daVinci MagiHuman Imagen a Video

Anima imágenes estáticas en videos con audio sincronizado

Sube tu Imagen

Sube una imagen de referencia de la persona o escena a animar. daVinci MagiHuman destaca en contenido centrado en humanos con expresiones faciales realistas.

Pricing · Choose Yours

Precios

Elige el plan que mejor se adapte a ti. Sin tarifas ocultas, sin sorpresas.

Una vez admite pago con criptomonedas (BTC, USDT, ETH, 350+)

Facturación mensual

Gratis-Una Vez

Prueba antes de comprar

0

Una Vez

USD

Gratis

32créditos

Hasta 3 videos

Hasta 32 imágenes

Soporte multi-modelo

Texto a video

Imagen a video

Video a video

Personaje consistente

Generador de animación IA

Plantillas y efectos

Mejoradores de video IA

Comunidad interactiva

Mayor velocidad de generación

Sin marca de agua

Más movimientos de cámara

Visibilidad de video privada

Protección contra copia

Soporte prioritario

Popular

Pro-1 Mes

Mejore su experiencia con IA

29.99

1 Mes

USD

800

800créditos1 Mes

Hasta 80 videos1 Mes

Hasta 800 imágenes1 Mes

3 tareas(Tareas paralelas)

Soporte multi-modelo

Texto a video

Imagen a video

Video a video

Personaje consistente

Generador de animación IA

Plantillas y efectos

Mejoradores de video IA

Comunidad interactiva

Mayor velocidad de generación

Sin marca de agua

Más movimientos de cámara

Visibilidad de video privada

Protección contra copia

Soporte prioritario

Lite-1 Mes

Comienza tu viaje con IA

19.99

1 Mes

USD

300créditos1 Mes

Hasta 30 videos1 Mes

Hasta 300 imágenes1 Mes

3 tareas(Tareas paralelas)

Soporte multi-modelo

Texto a video

Imagen a video

Video a video

Personaje consistente

Generador de animación IA

Plantillas y efectos

Mejoradores de video IA

Comunidad interactiva

Mayor velocidad de generación

Sin marca de agua

Más movimientos de cámara

Visibilidad de video privada

Protección contra copia

Soporte prioritario

Ver precios detallados