🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman Generatore Testo/Immagine a Video con Sincronizzazione Audio
Crea video con daVinci MagiHuman - un modello fondamentale audio-video open-source da 15B di Sand.ai e SII GAIR Lab. Genera video e audio sincronizzati da testo o immagini con precisione lip sync leader in 7 lingue. Fino a 1080p, 5-10 secondi. Architettura Transformer single-stream, video 5s 256p in soli 2 secondi su una H100.
/video/text-to-videodaVinci MagiHuman Text to Video Gallery
Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.
Rainy Tokyo Night
A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman Image to Video Gallery
Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Podcast Host Speaking
Video YouTube daVinci MagiHuman
Guarda le dimostrazioni e recensioni della community che mostrano le capacità di generazione audio-video di daVinci MagiHuman
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
Video YouTube daVinci MagiHuman
Guarda le dimostrazioni e recensioni della community che mostrano le capacità di generazione audio-video di daVinci MagiHuman
daVinci MagiHuman Recensioni popolari su X
Scopri cosa dicono le persone di daVinci MagiHuman su X (Twitter)
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
Cos'è daVinci MagiHuman
Il modello fondamentale audio-video open-source da 15B di Sand.ai con il miglior lip sync
- · 0115BParametri
- · 021080pRisoluzione Max
- · 037Lingue Supportate
- · 042sVelocità 256p
daVinci MagiHuman è un Transformer single-stream da 15 miliardi di parametri che genera congiuntamente video e audio sincronizzati da testo o immagini, raggiungendo una precisione di lip sync leader con un tasso di errore parole del 14,6% in 7 lingue.
Funzionalità di daVinci MagiHuman
Scopri le capacità avanzate che rendono daVinci MagiHuman eccezionale per la generazione audio-video
- Feature 01 / 08
Generazione Audio-Video Congiunta
Genera video e audio sincronizzati in un singolo passaggio con architettura Transformer single-stream con solo self-attention, senza pipeline audio separata.
- Feature 02 / 08
Lip Sync Leader del Settore
Tasso di errore parole del 14,6% per la sincronizzazione labiale, superando significativamente Ovi 1.1 (40,45%) e LTX 2.3 (19,23%) nei benchmark di precisione vocale.
- Feature 03 / 08
Supporto Vocale in 7 Lingue
Genera video sincronizzati con il parlato in inglese, cinese (mandarino e cantonese), giapponese, coreano, tedesco e francese con pronuncia naturale.
- Feature 04 / 08
Generazione Ultra-Veloce
Produce un video 256p di 5 secondi in soli 2 secondi su una singola GPU H100. La distillazione DMD-2 in 8 step elimina la necessità di guidance senza classificatore.
- Feature 05 / 08
Doppia Modalità di Input
Crea video da prompt testuali o anima immagini statiche. Entrambe le modalità supportano aspect ratio, risoluzioni e durate da 5 a 10 secondi configurabili.
- Feature 06 / 08
Super-Risoluzione Fino a 1080p
Genera video in 256p, 540p, 720p o 1080p tramite pipeline di super-risoluzione nello spazio latente senza overhead aggiuntivo di decodifica-codifica VAE.
- Feature 07 / 08
Open Source Apache 2.0
Completamente open-source con licenza Apache 2.0 con stack completo inclusi pesi base, modello distillato, modello super-risoluzione e codice di inferenza per uso commerciale illimitato.
- Feature 08 / 08
Eccellenza Centrata sull'Umano
Specializzato nella generazione di umani digitali con espressioni facciali espressive, movimenti corporei realistici e preservazione coerente dei personaggi tra i frame.
Domande Frequenti
Domande comuni sulla generazione audio-video di daVinci MagiHuman
Altre domande?
Come usare daVinci MagiHuman Testo a Video
Genera video con audio sincronizzato da descrizioni testuali
Scrivi il tuo Prompt
Inserisci una descrizione dettagliata del video desiderato. Includi soggetto, azione, contenuto vocale e lingua desiderata per risultati ottimali di lip sync.
Come usare daVinci MagiHuman Immagine a Video
Anima immagini statiche in video con audio sincronizzato
Carica la tua Immagine
Carica un'immagine di riferimento della persona o scena da animare. daVinci MagiHuman eccelle nei contenuti incentrati sull'umano con espressioni facciali realistiche.
Prezzi
Scegli il piano giusto per te. Nessuna tariffa nascosta, nessuna sorpresa.
Una tantum supporta il pagamento in criptovaluta (BTC, USDT, ETH, 350+)
Fatturazione mensile