Logo

daVinci MagiHuman テキスト/画像から動画生成 オーディオ同期付き

daVinci MagiHumanで動画を作成 - Sand.aiとSII GAIR Labが共同開発した150億パラメータのオープンソース音声動画基盤モデル。テキストや画像から同期した動画と音声を生成、7言語で業界最高のリップシンク精度。最大1080p、5-10秒。シングルストリームTransformerアーキテクチャ、H100 1枚で5秒256p動画をわずか2秒で生成。

公開
*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman
AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman
Input
Podcast Host Speaking - Input 1
Output
Podcast Host Speaking

daVinci MagiHuman YouTube動画

daVinci MagiHumanの音声動画生成機能を紹介するコミュニティのデモンストレーションとレビューをご覧ください

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

daVinci MagiHuman YouTube動画

daVinci MagiHumanの音声動画生成機能を紹介するコミュニティのデモンストレーションとレビューをご覧ください

daVinci MagiHuman X での人気レビュー

X (Twitter) で daVinci MagiHuman について何を言っているか見てみましょう

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply

daVinci MagiHumanとは

Sand.aiの150億パラメータオープンソース音声動画基盤モデル、業界最高のリップシンク

150億パラメータ
1080p最大解像度
7対応言語
2秒256p生成速度

daVinci MagiHumanは150億パラメータのシングルストリームTransformerで、テキストや画像から同期した動画と音声を共同生成し、7言語で14.6%の単語エラー率という業界最高のリップシンク精度を達成します。

daVinci MagiHumanの強力な機能

daVinci MagiHumanを音声動画生成で卓越させる先進機能をご覧ください

音声動画同時生成

統一されたシングルストリームTransformerアーキテクチャでself-attentionのみを使用し、1回のパスで同期した動画と音声を生成。別途の音声パイプラインは不要。

業界最高のリップシンク

リップシンクの単語エラー率14.6%を達成。Ovi 1.1(40.45%)やLTX 2.3(19.23%)を大幅に上回る音声精度ベンチマーク。

7言語音声対応

英語、中国語(普通話・広東語)、日本語、韓国語、ドイツ語、フランス語で自然な発音と唇の動きを持つ音声同期動画を生成。

超高速生成

単一のH100 GPUで5秒の256p動画をわずか2秒で生成。8ステップDMD-2蒸留によりclassifier-free guidanceなしで品質を維持。

デュアル入力モード

テキストプロンプトから動画を作成、または静止画像をアニメーション化。両モードとも設定可能なアスペクト比、解像度、5-10秒の長さに対応。

最大1080p超解像

潜在空間超解像パイプラインにより256p、540p、720p、1080pの動画を生成。追加のVAEデコード・エンコードオーバーヘッドなし。

オープンソース Apache 2.0

Apache 2.0ライセンスで完全オープンソース。ベースウェイト、蒸留モデル、超解像モデル、推論コードの完全なスタックを含み、商用利用無制限。

人間中心の卓越性

デジタルヒューマン生成に特化。表情豊かな顔の動き、リアルな体の動き、フレーム間での一貫したキャラクター保持でプロのトーキングヘッドコンテンツに最適。

よくある質問

daVinci MagiHumanの音声動画生成に関するよくある質問

daVinci MagiHumanは2つの主要な入力モードに対応しています:テキストから動画(テキストプロンプトから同期オーディオ付き動画を生成)と画像から動画(静止画をオプションのオーディオ付きモーション動画にアニメーション化)。両モードとも設定可能なアスペクト比(16:9横向き、9:16縦向き)、最大1080p解像度、5-10秒の長さに対応しています。
daVinci MagiHumanは7言語での同期音声生成に対応しています:英語、中国語(普通語)、広東語、日本語、韓国語、ドイツ語、フランス語。リップシンクの単語エラー率14.6%を達成し、Ovi 1.1(40.45%)やLTX 2.3(19.23%)を大幅に上回ります。
daVinci MagiHumanは複数の解像度に対応:256p(最速)、540p(超解像)、720p、1080p(超解像)。動画の長さは1秒刻みで5秒から10秒まで設定可能。横向き(16:9)と縦向き(9:16)の両方のアスペクト比に対応しています。
単一のNVIDIA H100 GPUで、daVinci MagiHumanは5秒の256p動画を約2秒で生成します。より高い解像度では:540pは約8秒、1080pは約38.4秒かかります。この速度はclassifier-free guidanceなしの8ステップDMD-2蒸留により実現されています。
はい、daVinci MagiHumanはSand.aiとSII GAIR LabによりApache 2.0ライセンスで完全にオープンソース化されています。ベースモデルの重み、蒸留モデル、超解像モデル、推論コードを含む完全なスタックが利用可能で、無制限の商用利用が可能です。
daVinci MagiHumanは、self-attentionのみを使用するユニークなシングルストリームTransformerアーキテクチャ(cross-attentionやマルチストリームパスなし)により、単一モデルでの音声動画同時生成を実現する点で際立っています。業界最高のリップシンク精度(14.6% WER)を達成し、7言語に対応、人間評価でOvi 1.1に対して80%の勝率を記録しています。

daVinci MagiHuman テキストから動画の使い方

テキスト説明から同期オーディオ付き動画を生成

1
プロンプトを書く
2
設定を構成
3
動画を生成

作成したい動画の詳細な説明を入力してください。最適なリップシンク結果のために、主題、アクション、音声内容、希望する言語を含めてください。

daVinci MagiHuman 画像から動画の使い方

静止画像を同期オーディオ付き動画にアニメーション化

1
画像をアップロード
2
プロンプトと設定を追加
3
アニメーション動画を生成

アニメーション化したい人物やシーンのリファレンス画像をアップロード。daVinci MagiHumanはリアルな表情と体の動きの人間中心コンテンツに優れています。

料金

あなたに合ったプランを選んでください。隠れた料金や予期せぬ費用はありません。

月間請求

無料

購入前にお試し

0
一回限り
USD
無料
32points
最大 3
最大 32
マルチモデルサポート
テキストから動画へ
画像から動画へ
動画から動画へ
キャラクター一貫性
AIアニメーションジェネレーター
テンプレートとエフェクト
AIビデオエンハンサー
インタラクティブコミュニティ
高速生成
ウォーターマークなし出力
カメラムーブメント拡張
プライベートビデオ設定
コピー保護
優先サポート
人気

プロ

AIエクスペリエンスを向上させる

29.99
1ヶ月
USD
800
800points1ヶ月
最大 801ヶ月
最大 8001ヶ月
3(並行タスク数)
マルチモデルサポート
テキストから動画へ
画像から動画へ
動画から動画へ
キャラクター一貫性
AIアニメーションジェネレーター
テンプレートとエフェクト
AIビデオエンハンサー
インタラクティブコミュニティ
高速生成
ウォーターマークなし出力
カメラムーブメント拡張
プライベートビデオ設定
コピー保護
優先サポート

ライト

AIの旅を始めましょう

9.99
1ヶ月
USD
200points1ヶ月
最大 201ヶ月
最大 2001ヶ月
3(並行タスク数)
マルチモデルサポート
テキストから動画へ
画像から動画へ
動画から動画へ
キャラクター一貫性
AIアニメーションジェネレーター
テンプレートとエフェクト
AIビデオエンハンサー
インタラクティブコミュニティ
高速生成
ウォーターマークなし出力
カメラムーブメント拡張
プライベートビデオ設定
コピー保護
優先サポート