Logo
Modèles vidéo

daVinci MagiHuman Générateur Texte/Image vers Vidéo avec Synchronisation Audio

Créez des vidéos avec daVinci MagiHuman - un modèle fondation audio-vidéo open-source de 15B par Sand.ai et SII GAIR Lab. Générez vidéo et audio synchronisés à partir de texte ou d'images avec une précision de lip sync leader dans 7 langues. Jusqu'à 1080p avec 5-10 secondes. Architecture Transformer single-stream, vidéo 5s 256p en seulement 2 secondes sur un H100.

/video/text-to-video
Public
*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman
AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Source Feeds01 Inputs
Podcast Host Speaking - Input 1
Program · On AirAI · Generated
Output
Transcript · 01

Podcast Host Speaking

Vidéos YouTube daVinci MagiHuman

Regardez les démonstrations et critiques de la communauté présentant les capacités de génération audio-vidéo de daVinci MagiHuman

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

Vidéos YouTube daVinci MagiHuman

Regardez les démonstrations et critiques de la communauté présentant les capacités de génération audio-vidéo de daVinci MagiHuman

daVinci MagiHuman Avis populaires sur X

Découvrez ce que les gens disent de daVinci MagiHuman sur X (Twitter)

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply
Reel · Specifications

Qu'est-ce que daVinci MagiHuman

Le modèle fondation audio-vidéo open-source de 15B de Sand.ai avec le meilleur lip sync

  1. · 0115BParamètres
  2. · 021080pRésolution Max
  3. · 037Langues Supportées
  4. · 042sVitesse 256p

daVinci MagiHuman est un Transformer single-stream de 15 milliards de paramètres qui génère conjointement vidéo et audio synchronisés à partir de texte ou d'images, atteignant une précision de lip sync de premier plan avec un taux d'erreur de mots de 14,6% dans 7 langues.

Reel · Capabilities

Fonctionnalités de daVinci MagiHuman

Découvrez les capacités avancées qui font de daVinci MagiHuman un outil exceptionnel pour la génération audio-vidéo

  1. Feature 01 / 08

    Génération Audio-Vidéo Conjointe

    Générez vidéo et audio synchronisés en une seule passe grâce à une architecture Transformer single-stream avec self-attention uniquement, sans pipeline audio séparé.

  2. Feature 02 / 08

    Lip Sync Leader du Secteur

    Taux d'erreur de mots de 14,6% pour la synchronisation labiale, surpassant significativement Ovi 1.1 (40,45%) et LTX 2.3 (19,23%) dans les benchmarks de précision vocale.

  3. Feature 03 / 08

    Support Vocal en 7 Langues

    Générez des vidéos synchronisées avec la parole en anglais, chinois (mandarin et cantonais), japonais, coréen, allemand et français avec prononciation naturelle.

  4. Feature 04 / 08

    Génération Ultra-Rapide

    Produisez une vidéo 256p de 5 secondes en seulement 2 secondes sur un seul GPU H100. La distillation DMD-2 en 8 étapes élimine le besoin de guidance sans classificateur.

  5. Feature 05 / 08

    Double Mode d'Entrée

    Créez des vidéos à partir de prompts texte ou animez des images fixes. Les deux modes supportent des ratios d'aspect, résolutions et durées de 5 à 10 secondes configurables.

  6. Feature 06 / 08

    Super-Résolution Jusqu'à 1080p

    Générez des vidéos en 256p, 540p, 720p ou 1080p via un pipeline de super-résolution en espace latent sans surcharge de décodage-encodage VAE supplémentaire.

  7. Feature 07 / 08

    Open Source Apache 2.0

    Entièrement open-source sous licence Apache 2.0 avec pile complète incluant poids de base, modèle distillé, modèle de super-résolution et code d'inférence pour usage commercial illimité.

  8. Feature 08 / 08

    Excellence Centrée sur l'Humain

    Spécialisé dans la génération d'humains numériques avec expressions faciales expressives, mouvements corporels réalistes et préservation cohérente des personnages entre les images.

FAQ

Questions Fréquemment Posées

Questions courantes sur la génération audio-vidéo de daVinci MagiHuman

daVinci MagiHuman supporte deux modes principaux : Texte-vers-Vidéo (génération de vidéos avec audio synchronisé à partir de prompts) et Image-vers-Vidéo (animation d'images fixes avec audio optionnel). Les deux modes supportent des ratios configurables (16:9 paysage, 9:16 portrait), résolutions jusqu'à 1080p et durées de 5 à 10 secondes.
daVinci MagiHuman supporte la génération vocale synchronisée en 7 langues : anglais, chinois (mandarin), cantonais, japonais, coréen, allemand et français. Le modèle atteint un taux d'erreur de mots de 14,6% pour le lip sync, surpassant significativement Ovi 1.1 (40,45%) et LTX 2.3 (19,23%).
daVinci MagiHuman supporte plusieurs résolutions : 256p (le plus rapide), 540p (super-résolution), 720p et 1080p (super-résolution). La durée peut être configurée de 5 à 10 secondes par incréments d'une seconde. Les ratios paysage (16:9) et portrait (9:16) sont supportés.
Sur un seul GPU NVIDIA H100, daVinci MagiHuman génère une vidéo 256p de 5 secondes en environ 2 secondes. Pour des résolutions supérieures : 540p prend environ 8 secondes et 1080p environ 38,4 secondes pour une vidéo de 5 secondes. Cette vitesse est obtenue grâce à la distillation DMD-2 en 8 étapes.
Oui, daVinci MagiHuman est entièrement open-source sous licence Apache 2.0 par Sand.ai et SII GAIR Lab. Le stack complet est disponible incluant les poids du modèle de base, le modèle distillé, le modèle de super-résolution et le code d'inférence, permettant une utilisation commerciale sans restriction.
daVinci MagiHuman se distingue par son architecture Transformer single-stream utilisant uniquement la self-attention (sans cross-attention ni chemins multi-stream), permettant la génération conjointe audio-vidéo dans un seul modèle. Il atteint la meilleure précision de lip sync (14,6% WER), supporte 7 langues et obtient un taux de victoire de 80% contre Ovi 1.1 en évaluation humaine.

Comment utiliser daVinci MagiHuman Texte vers Vidéo

Générez des vidéos avec audio synchronisé à partir de descriptions textuelles

Rédigez votre Prompt

Entrez une description détaillée de la vidéo souhaitée. Incluez le sujet, l'action, le contenu vocal et la langue souhaitée pour un lip sync optimal.

Comment utiliser daVinci MagiHuman Image vers Vidéo

Animez des images fixes en vidéos avec audio synchronisé

Téléchargez votre Image

Téléchargez une image de référence de la personne ou scène à animer. daVinci MagiHuman excelle dans le contenu centré sur l'humain avec des expressions faciales réalistes.

Pricing · Choose Yours

Tarifs

Choisissez le plan qui vous convient. Pas de frais cachés, pas de surprises.

Une fois prend en charge le paiement crypto (BTC, USDT, ETH, 350+)

Facturation mensuelle

Gratuit

Essayez avant d'acheter

0
Une fois
USD
Gratuit
32crédits
Jusqu'à 3 vidéos
Jusqu'à 32 images
Support multi-modèles
Texte vers vidéo
Image vers vidéo
Vidéo vers vidéo
Personnage cohérent
Générateur d'animations IA
Modèles et effets
Améliorateurs vidéo IA
Communauté interactive
Vitesse de génération plus rapide
Sans filigrane
Plus de mouvements de caméra
Visibilité vidéo privée
Protection contre la copie
Support prioritaire
Populaire

Pro

Améliorez votre expérience IA

29.99
1 Mois
USD
800
800crédits1 Mois
Jusqu'à 80 vidéos1 Mois
Jusqu'à 800 images1 Mois
3 tâches(Tâches parallèles)
Support multi-modèles
Texte vers vidéo
Image vers vidéo
Vidéo vers vidéo
Personnage cohérent
Générateur d'animations IA
Modèles et effets
Améliorateurs vidéo IA
Communauté interactive
Vitesse de génération plus rapide
Sans filigrane
Plus de mouvements de caméra
Visibilité vidéo privée
Protection contre la copie
Support prioritaire

Lite

Commencez votre parcours IA

9.99
1 Mois
USD
200crédits1 Mois
Jusqu'à 20 vidéos1 Mois
Jusqu'à 200 images1 Mois
3 tâches(Tâches parallèles)
Support multi-modèles
Texte vers vidéo
Image vers vidéo
Vidéo vers vidéo
Personnage cohérent
Générateur d'animations IA
Modèles et effets
Améliorateurs vidéo IA
Communauté interactive
Vitesse de génération plus rapide
Sans filigrane
Plus de mouvements de caméra
Visibilité vidéo privée
Protection contre la copie
Support prioritaire