🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman Generatore Testo/Immagine a Video con Sincronizzazione Audio
Crea video con daVinci MagiHuman - un modello fondamentale audio-video open-source da 15B di Sand.ai e SII GAIR Lab. Genera video e audio sincronizzati da testo o immagini con precisione lip sync leader in 7 lingue. Fino a 1080p, 5-10 secondi. Architettura Transformer single-stream, video 5s 256p in soli 2 secondi su una H100.
daVinci MagiHuman Text to Video Gallery
Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.
Rainy Tokyo Night
A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman Image to Video Gallery
Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Video YouTube daVinci MagiHuman
Guarda le dimostrazioni e recensioni della community che mostrano le capacità di generazione audio-video di daVinci MagiHuman
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
Video YouTube daVinci MagiHuman
Guarda le dimostrazioni e recensioni della community che mostrano le capacità di generazione audio-video di daVinci MagiHuman
daVinci MagiHuman Recensioni popolari su X
Scopri cosa dicono le persone di daVinci MagiHuman su X (Twitter)
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
Cos'è daVinci MagiHuman
Il modello fondamentale audio-video open-source da 15B di Sand.ai con il miglior lip sync
daVinci MagiHuman è un Transformer single-stream da 15 miliardi di parametri che genera congiuntamente video e audio sincronizzati da testo o immagini, raggiungendo una precisione di lip sync leader con un tasso di errore parole del 14,6% in 7 lingue.
Cos'è daVinci MagiHuman
Il modello fondamentale audio-video open-source da 15B di Sand.ai con il miglior lip sync
daVinci MagiHuman è un Transformer single-stream da 15 miliardi di parametri che genera congiuntamente video e audio sincronizzati da testo o immagini, raggiungendo una precisione di lip sync leader con un tasso di errore parole del 14,6% in 7 lingue.
Funzionalità di daVinci MagiHuman
Scopri le capacità avanzate che rendono daVinci MagiHuman eccezionale per la generazione audio-video
Generazione Audio-Video Congiunta
Genera video e audio sincronizzati in un singolo passaggio con architettura Transformer single-stream con solo self-attention, senza pipeline audio separata.
Lip Sync Leader del Settore
Tasso di errore parole del 14,6% per la sincronizzazione labiale, superando significativamente Ovi 1.1 (40,45%) e LTX 2.3 (19,23%) nei benchmark di precisione vocale.
Supporto Vocale in 7 Lingue
Genera video sincronizzati con il parlato in inglese, cinese (mandarino e cantonese), giapponese, coreano, tedesco e francese con pronuncia naturale.
Generazione Ultra-Veloce
Produce un video 256p di 5 secondi in soli 2 secondi su una singola GPU H100. La distillazione DMD-2 in 8 step elimina la necessità di guidance senza classificatore.
Doppia Modalità di Input
Crea video da prompt testuali o anima immagini statiche. Entrambe le modalità supportano aspect ratio, risoluzioni e durate da 5 a 10 secondi configurabili.
Super-Risoluzione Fino a 1080p
Genera video in 256p, 540p, 720p o 1080p tramite pipeline di super-risoluzione nello spazio latente senza overhead aggiuntivo di decodifica-codifica VAE.
Open Source Apache 2.0
Completamente open-source con licenza Apache 2.0 con stack completo inclusi pesi base, modello distillato, modello super-risoluzione e codice di inferenza per uso commerciale illimitato.
Eccellenza Centrata sull'Umano
Specializzato nella generazione di umani digitali con espressioni facciali espressive, movimenti corporei realistici e preservazione coerente dei personaggi tra i frame.
Domande Frequenti
Domande comuni sulla generazione audio-video di daVinci MagiHuman
Altre domande?
Come usare daVinci MagiHuman Testo a Video
Genera video con audio sincronizzato da descrizioni testuali
Inserisci una descrizione dettagliata del video desiderato. Includi soggetto, azione, contenuto vocale e lingua desiderata per risultati ottimali di lip sync.
Come usare daVinci MagiHuman Immagine a Video
Anima immagini statiche in video con audio sincronizzato
Carica un'immagine di riferimento della persona o scena da animare. daVinci MagiHuman eccelle nei contenuti incentrati sull'umano con espressioni facciali realistiche.
Prezzi
Scegli il piano giusto per te. Nessuna tariffa nascosta, nessuna sorpresa.
Fatturazione mensile