Modelli video

daVinci MagiHuman Generatore Testo/Immagine a Video con Sincronizzazione Audio

Crea video con daVinci MagiHuman - un modello fondamentale audio-video open-source da 15B di Sand.ai e SII GAIR Lab. Genera video e audio sincronizzati da testo o immagini con precisione lip sync leader in 7 lingue. Fino a 1080p, 5-10 secondi. Architettura Transformer single-stream, video 5s 256p in soli 2 secondi su una H100.

/video/text-to-video

Pubblico

Traduci in English

Ottimizza prompt

*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman

AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman

Source Feeds01 Inputs

Podcast Host Speaking - Input 1

Pipeline

00%

Program · On AirAI · Generated

Output

Transcript · 01

Podcast Host Speaking

Video YouTube daVinci MagiHuman

Guarda le dimostrazioni e recensioni della community che mostrano le capacità di generazione audio-video di daVinci MagiHuman

daVinci MagiHuman Recensioni popolari su X

Scopri cosa dicono le persone di daVinci MagiHuman su X (Twitter)

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

Reel · Specifications

Cos'è daVinci MagiHuman

Il modello fondamentale audio-video open-source da 15B di Sand.ai con il miglior lip sync

· 0115BParametri
· 021080pRisoluzione Max
· 037Lingue Supportate
· 042sVelocità 256p

daVinci MagiHuman è un Transformer single-stream da 15 miliardi di parametri che genera congiuntamente video e audio sincronizzati da testo o immagini, raggiungendo una precisione di lip sync leader con un tasso di errore parole del 14,6% in 7 lingue.

Reel · Capabilities

Funzionalità di daVinci MagiHuman

Scopri le capacità avanzate che rendono daVinci MagiHuman eccezionale per la generazione audio-video

Feature 01 / 08
Generazione Audio-Video Congiunta
Genera video e audio sincronizzati in un singolo passaggio con architettura Transformer single-stream con solo self-attention, senza pipeline audio separata.
Feature 02 / 08
Lip Sync Leader del Settore
Tasso di errore parole del 14,6% per la sincronizzazione labiale, superando significativamente Ovi 1.1 (40,45%) e LTX 2.3 (19,23%) nei benchmark di precisione vocale.
Feature 03 / 08
Supporto Vocale in 7 Lingue
Genera video sincronizzati con il parlato in inglese, cinese (mandarino e cantonese), giapponese, coreano, tedesco e francese con pronuncia naturale.
Feature 04 / 08
Generazione Ultra-Veloce
Produce un video 256p di 5 secondi in soli 2 secondi su una singola GPU H100. La distillazione DMD-2 in 8 step elimina la necessità di guidance senza classificatore.
Feature 05 / 08
Doppia Modalità di Input
Crea video da prompt testuali o anima immagini statiche. Entrambe le modalità supportano aspect ratio, risoluzioni e durate da 5 a 10 secondi configurabili.
Feature 06 / 08
Super-Risoluzione Fino a 1080p
Genera video in 256p, 540p, 720p o 1080p tramite pipeline di super-risoluzione nello spazio latente senza overhead aggiuntivo di decodifica-codifica VAE.
Feature 07 / 08
Open Source Apache 2.0
Completamente open-source con licenza Apache 2.0 con stack completo inclusi pesi base, modello distillato, modello super-risoluzione e codice di inferenza per uso commerciale illimitato.
Feature 08 / 08
Eccellenza Centrata sull'Umano
Specializzato nella generazione di umani digitali con espressioni facciali espressive, movimenti corporei realistici e preservazione coerente dei personaggi tra i frame.

FAQ

Domande Frequenti

Domande comuni sulla generazione audio-video di daVinci MagiHuman

Altre domande?

[email protected]

Unisciti a Discord Invia un ticket

daVinci MagiHuman supporta due modalità principali: Testo-a-Video (generazione di video con audio sincronizzato da prompt testuali) e Immagine-a-Video (animazione di immagini statiche con audio opzionale). Entrambe le modalità supportano aspect ratio configurabili (16:9 paesaggio, 9:16 ritratto), risoluzioni fino a 1080p e durate da 5 a 10 secondi.

daVinci MagiHuman supporta la generazione vocale sincronizzata in 7 lingue: inglese, cinese (mandarino), cantonese, giapponese, coreano, tedesco e francese. Il modello raggiunge un tasso di errore parole del 14,6% per il lip sync, superando significativamente Ovi 1.1 (40,45%) e LTX 2.3 (19,23%).

daVinci MagiHuman supporta più risoluzioni: 256p (più veloce), 540p (super-risoluzione), 720p e 1080p (super-risoluzione). La durata del video può essere configurata da 5 a 10 secondi con granularità di 1 secondo. Sono supportati sia il formato paesaggio (16:9) che ritratto (9:16).

Su una singola GPU NVIDIA H100, daVinci MagiHuman genera un video 256p di 5 secondi in circa 2 secondi. Per risoluzioni superiori: 540p richiede circa 8 secondi e 1080p circa 38,4 secondi. Questa velocità è ottenuta tramite distillazione DMD-2 in 8 step senza classifier-free guidance.

Sì, daVinci MagiHuman è completamente open-source sotto licenza Apache 2.0 da Sand.ai e SII GAIR Lab. Lo stack completo è disponibile inclusi i pesi del modello base, il modello distillato, il modello di super-risoluzione e il codice di inferenza per uso commerciale illimitato.

daVinci MagiHuman si distingue per la sua architettura Transformer single-stream che usa solo self-attention (senza cross-attention o percorsi multi-stream), consentendo la generazione congiunta audio-video in un singolo modello. Raggiunge la migliore precisione di lip sync (14,6% WER), supporta 7 lingue e ottiene un tasso di vittoria dell'80% contro Ovi 1.1 nella valutazione umana.

Come usare daVinci MagiHuman Testo a Video

Genera video con audio sincronizzato da descrizioni testuali

Scrivi il tuo Prompt

Inserisci una descrizione dettagliata del video desiderato. Includi soggetto, azione, contenuto vocale e lingua desiderata per risultati ottimali di lip sync.

Come usare daVinci MagiHuman Immagine a Video

Anima immagini statiche in video con audio sincronizzato

Carica la tua Immagine

Carica un'immagine di riferimento della persona o scena da animare. daVinci MagiHuman eccelle nei contenuti incentrati sull'umano con espressioni facciali realistiche.

Pricing · Choose Yours

Prezzi

Scegli il piano giusto per te. Nessuna tariffa nascosta, nessuna sorpresa.

Una tantum supporta il pagamento in criptovaluta (BTC, USDT, ETH, 350+)

Fatturazione mensile

Gratuito-Una volta

Prova prima di acquistare

0

Una volta

USD

Gratuito

32crediti

Fino a 3 video

Fino a 32 immagini

Supporto multi-modello

Testo in video

Immagine in video

Video in video

Personaggio coerente

Generatore di animazioni IA

Modelli ed effetti

Miglioramento video IA

Comunità interattiva

Generazione più veloce

Senza filigrana

Più movimenti fotocamera

Visibilità video privata

Protezione dalla copia

Supporto prioritario

Popolare

Pro-1 Mese

Migliora la tua esperienza IA

29.99

1 Mese

USD

800

800crediti1 Mese

Fino a 80 video1 Mese

Fino a 800 immagini1 Mese

3 attività(Attività parallele)

Supporto multi-modello

Testo in video

Immagine in video

Video in video

Personaggio coerente

Generatore di animazioni IA

Modelli ed effetti

Miglioramento video IA

Comunità interattiva

Generazione più veloce

Senza filigrana

Più movimenti fotocamera

Visibilità video privata

Protezione dalla copia

Supporto prioritario

Lite-1 Mese

Inizia il tuo viaggio IA

19.99

1 Mese

USD

300crediti1 Mese

Fino a 30 video1 Mese

Fino a 300 immagini1 Mese

3 attività(Attività parallele)

Supporto multi-modello

Testo in video

Immagine in video

Video in video

Personaggio coerente

Generatore di animazioni IA

Modelli ed effetti

Miglioramento video IA

Comunità interattiva

Generazione più veloce

Senza filigrana

Più movimenti fotocamera

Visibilità video privata

Protezione dalla copia

Supporto prioritario

Visualizza prezzi dettagliati