Videomodelle

daVinci MagiHuman Text/Bild zu Video Generator mit Audio-Synchronisation

Erstellen Sie Videos mit daVinci MagiHuman - einem 15B Open-Source Audio-Video-Grundmodell von Sand.ai und SII GAIR Lab. Generieren Sie synchronisiertes Video und Audio aus Text oder Bildern mit branchenführender Lippensynchronisation in 7 Sprachen. Bis zu 1080p Auflösung, 5-10 Sekunden. Single-Stream-Transformer-Architektur, 5s 256p Video in nur 2 Sekunden auf einer H100.

/video/text-to-video

Öffentlich

Übersetzen nach English

Prompt optimieren

*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman

AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman

Source Feeds01 Inputs

Podcast Host Speaking - Input 1

Pipeline

00%

Program · On AirAI · Generated

Output

Transcript · 01

Podcast Host Speaking

daVinci MagiHuman YouTube Videos

Sehen Sie sich Community-Demonstrationen und Bewertungen an, die die Audio-Video-Generierungsfunktionen von daVinci MagiHuman zeigen

daVinci MagiHuman Beliebte Bewertungen auf X

Sehen Sie, was die Leute über daVinci MagiHuman auf X (Twitter) sagen

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

Read 10 replies

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

Reel · Specifications

Was ist daVinci MagiHuman

Sand.ais 15B Open-Source Audio-Video-Grundmodell mit erstklassiger Lippensynchronisation

· 0115BParameter
· 021080pMax Auflösung
· 037Unterstützte Sprachen
· 042s256p Geschwindigkeit

daVinci MagiHuman ist ein 15-Milliarden-Parameter Single-Stream-Transformer, der gemeinsam synchronisiertes Video und Audio aus Text oder Bildern generiert und mit einer Wortfehlerrate von 14,6% in 7 Sprachen branchenführende Lippensynchronisation erreicht.

Reel · Capabilities

daVinci MagiHumans leistungsstarke Funktionen

Entdecken Sie die fortschrittlichen Fähigkeiten, die daVinci MagiHuman zur Audio-Video-Generierung auszeichnen

Feature 01 / 08
Gemeinsame Audio-Video-Generierung
Generieren Sie synchronisiertes Video und Audio in einem Durchgang mit einer einheitlichen Single-Stream-Transformer-Architektur nur mit Self-Attention, ohne separate Audio-Pipeline.
Feature 02 / 08
Branchenführende Lippensynchronisation
Wortfehlerrate von 14,6% bei der Lippensynchronisation, deutlich besser als Ovi 1.1 (40,45%) und LTX 2.3 (19,23%) in Sprachgenauigkeits-Benchmarks.
Feature 03 / 08
7-Sprachen-Sprachunterstützung
Generieren Sie sprachsynchronisierte Videos in Englisch, Chinesisch (Mandarin und Kantonesisch), Japanisch, Koreanisch, Deutsch und Französisch mit natürlicher Aussprache.
Feature 04 / 08
Ultraschnelle Generierung
Erstellen Sie ein 5-Sekunden-256p-Video in nur 2 Sekunden auf einer einzelnen H100-GPU. 8-Schritte-DMD-2-Destillation ohne Classifier-Free-Guidance bei gleichbleibender Qualität.
Feature 05 / 08
Doppelter Eingabemodus
Erstellen Sie Videos aus Textprompts oder animieren Sie Standbilder. Beide Modi unterstützen konfigurierbare Seitenverhältnisse, Auflösungen und Dauern von 5-10 Sekunden.
Feature 06 / 08
Super-Auflösung bis 1080p
Generieren Sie Videos in 256p, 540p, 720p oder 1080p über eine Latent-Space-Super-Resolution-Pipeline ohne zusätzlichen VAE-Decode-Encode-Overhead.
Feature 07 / 08
Open Source Apache 2.0
Vollständig unter Apache 2.0 Lizenz open-source mit komplettem Stack inklusive Basisgewichte, destilliertes Modell, Super-Resolution-Modell und Inferenzcode für uneingeschränkte kommerzielle Nutzung.
Feature 08 / 08
Menschenzentrierte Exzellenz
Spezialisiert auf digitale Menschengenerierung mit ausdrucksstarker Mimik, realistischer Körperbewegung und konsistenter Charaktererhaltung über Frames für professionelle Talking-Head-Inhalte.

FAQ

Häufig Gestellte Fragen

Häufige Fragen zur Audio-Video-Generierung mit daVinci MagiHuman

Noch Fragen?

[email protected]

Discord beitreten Ticket erstellen

daVinci MagiHuman unterstützt zwei Hauptmodi: Text-zu-Video (Videos mit synchronisiertem Audio aus Textprompts) und Bild-zu-Video (Animation von Standbildern mit optionalem Audio). Beide Modi unterstützen konfigurierbare Seitenverhältnisse (16:9 Querformat, 9:16 Hochformat), Auflösungen bis 1080p und Dauern von 5-10 Sekunden.

daVinci MagiHuman unterstützt synchronisierte Sprachgenerierung in 7 Sprachen: Englisch, Chinesisch (Mandarin), Kantonesisch, Japanisch, Koreanisch, Deutsch und Französisch. Das Modell erreicht eine Wortfehlerrate von 14,6% für Lippensynchronisation, deutlich besser als Ovi 1.1 (40,45%) und LTX 2.3 (19,23%).

daVinci MagiHuman unterstützt mehrere Auflösungen: 256p (schnellste), 540p (Superauflösung), 720p und 1080p (Superauflösung). Die Videodauer kann von 5 bis 10 Sekunden in 1-Sekunden-Schritten konfiguriert werden. Quer- (16:9) und Hochformat (9:16) werden unterstützt.

Auf einer einzelnen NVIDIA H100 GPU generiert daVinci MagiHuman ein 5-Sekunden-256p-Video in etwa 2 Sekunden. Für höhere Auflösungen: 540p dauert etwa 8 Sekunden und 1080p etwa 38,4 Sekunden. Diese Geschwindigkeit wird durch 8-Schritte-DMD-2-Destillation ohne Classifier-Free-Guidance erreicht.

Ja, daVinci MagiHuman ist vollständig unter Apache 2.0 Lizenz von Sand.ai und SII GAIR Lab open-source. Der komplette Stack ist verfügbar, einschließlich Basismodellgewichte, destilliertes Modell, Superauflösungsmodell und Inferenzcode für uneingeschränkte kommerzielle Nutzung.

daVinci MagiHuman zeichnet sich durch seine einzigartige Single-Stream-Transformer-Architektur aus, die nur Self-Attention verwendet (kein Cross-Attention oder Multi-Stream), was gemeinsame Audio-Video-Generierung in einem einzigen Modell ermöglicht. Es erreicht die beste Lippensynchronisation (14,6% WER), unterstützt 7 Sprachen und erzielt eine 80% Gewinnrate gegen Ovi 1.1 in menschlicher Bewertung.

Wie man daVinci MagiHuman Text zu Video verwendet

Generieren Sie Videos mit synchronisiertem Audio aus Textbeschreibungen

Schreiben Sie Ihren Prompt

Geben Sie eine detaillierte Beschreibung des gewünschten Videos ein. Fügen Sie Subjekt, Aktion, Sprachinhalt und gewünschte Sprache für optimale Lippensynchronisation hinzu.

Wie man daVinci MagiHuman Bild zu Video verwendet

Animieren Sie Standbilder zu Videos mit synchronisiertem Audio

Laden Sie Ihr Bild hoch

Laden Sie ein Referenzbild der Person oder Szene hoch. daVinci MagiHuman glänzt bei menschenzentrierten Inhalten mit realistischer Mimik und Körperbewegung.

Pricing · Choose Yours

Preise

Wählen Sie den Plan, der zu Ihnen passt. Keine versteckten Gebühren, keine Überraschungen.

Einmalig unterstützt Krypto-Zahlung (BTC, USDT, ETH, 350+)

Monatliche Abrechnung

Kostenlos-Einmalig

Vor dem Kauf testen

0

Einmalig

USD

Kostenlos

32Credits

Bis zu 3 Videos

Bis zu 32 Bilder

Multi-Modell-Unterstützung

Text zu Video

Bild zu Video

Video zu Video

Konsistenter Charakter

KI-Animationsgenerator

Vorlagen & Effekte

KI-Videoverbesserung

Interaktive Community

Schnellere Generierung

Ohne Wasserzeichen

Mehr Kamerabewegung

Private Videosichtbarkeit

Kopierschutz

Prioritäts-Support

Beliebt

Pro-1 Monat

Verbessern Sie Ihr KI-Erlebnis

29.99

1 Monat

USD

800

800Credits1 Monat

Bis zu 80 Videos1 Monat

Bis zu 800 Bilder1 Monat

3 Aufgaben(Parallele Aufgaben)

Multi-Modell-Unterstützung

Text zu Video

Bild zu Video

Video zu Video

Konsistenter Charakter

KI-Animationsgenerator

Vorlagen & Effekte

KI-Videoverbesserung

Interaktive Community

Schnellere Generierung

Ohne Wasserzeichen

Mehr Kamerabewegung

Private Videosichtbarkeit

Kopierschutz

Prioritäts-Support

Lite-1 Monat

Starten Sie Ihre KI-Reise

19.99

1 Monat

USD

300Credits1 Monat

Bis zu 30 Videos1 Monat

Bis zu 300 Bilder1 Monat

3 Aufgaben(Parallele Aufgaben)

Multi-Modell-Unterstützung

Text zu Video

Bild zu Video

Video zu Video

Konsistenter Charakter

KI-Animationsgenerator

Vorlagen & Effekte

KI-Videoverbesserung

Interaktive Community

Schnellere Generierung

Ohne Wasserzeichen

Mehr Kamerabewegung

Private Videosichtbarkeit

Kopierschutz

Prioritäts-Support

Detaillierte Preise ansehen