動画モデル

daVinci MagiHuman テキスト/画像から動画生成オーディオ同期付き

daVinci MagiHumanで動画を作成 - Sand.aiとSII GAIR Labが共同開発した150億パラメータのオープンソース音声動画基盤モデル。テキストや画像から同期した動画と音声を生成、7言語で業界最高のリップシンク精度。最大1080p、5-10秒。シングルストリームTransformerアーキテクチャ、H100 1枚で5秒256p動画をわずか2秒で生成。

/video/text-to-video

公開

Englishに翻訳

プロンプトの最適化

*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman

AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman

Source Feeds01 Inputs

Podcast Host Speaking - Input 1

Pipeline

00%

Program · On AirAI · Generated

Output

Transcript · 01

Podcast Host Speaking

daVinci MagiHuman YouTube動画

daVinci MagiHumanの音声動画生成機能を紹介するコミュニティのデモンストレーションとレビューをご覧ください

daVinci MagiHuman X での人気レビュー

X (Twitter) で daVinci MagiHuman について何を言っているか見てみましょう

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

Reel · Specifications

daVinci MagiHumanとは

Sand.aiの150億パラメータオープンソース音声動画基盤モデル、業界最高のリップシンク

· 01150億パラメータ
· 021080p最大解像度
· 037対応言語
· 042秒256p生成速度

daVinci MagiHumanは150億パラメータのシングルストリームTransformerで、テキストや画像から同期した動画と音声を共同生成し、7言語で14.6%の単語エラー率という業界最高のリップシンク精度を達成します。

Reel · Capabilities

daVinci MagiHumanの強力な機能

daVinci MagiHumanを音声動画生成で卓越させる先進機能をご覧ください

Feature 01 / 08
音声動画同時生成
統一されたシングルストリームTransformerアーキテクチャでself-attentionのみを使用し、1回のパスで同期した動画と音声を生成。別途の音声パイプラインは不要。
Feature 02 / 08
業界最高のリップシンク
リップシンクの単語エラー率14.6%を達成。Ovi 1.1（40.45%）やLTX 2.3（19.23%）を大幅に上回る音声精度ベンチマーク。
Feature 03 / 08
7言語音声対応
英語、中国語（普通話・広東語）、日本語、韓国語、ドイツ語、フランス語で自然な発音と唇の動きを持つ音声同期動画を生成。
Feature 04 / 08
超高速生成
単一のH100 GPUで5秒の256p動画をわずか2秒で生成。8ステップDMD-2蒸留によりclassifier-free guidanceなしで品質を維持。
Feature 05 / 08
デュアル入力モード
テキストプロンプトから動画を作成、または静止画像をアニメーション化。両モードとも設定可能なアスペクト比、解像度、5-10秒の長さに対応。
Feature 06 / 08
最大1080p超解像
潜在空間超解像パイプラインにより256p、540p、720p、1080pの動画を生成。追加のVAEデコード・エンコードオーバーヘッドなし。
Feature 07 / 08
オープンソース Apache 2.0
Apache 2.0ライセンスで完全オープンソース。ベースウェイト、蒸留モデル、超解像モデル、推論コードの完全なスタックを含み、商用利用無制限。
Feature 08 / 08
人間中心の卓越性
デジタルヒューマン生成に特化。表情豊かな顔の動き、リアルな体の動き、フレーム間での一貫したキャラクター保持でプロのトーキングヘッドコンテンツに最適。

FAQ

よくある質問

daVinci MagiHumanの音声動画生成に関するよくある質問

他にご質問は？

[email protected]

Discordに参加チケットを送信

daVinci MagiHumanは2つの主要な入力モードに対応しています：テキストから動画（テキストプロンプトから同期オーディオ付き動画を生成）と画像から動画（静止画をオプションのオーディオ付きモーション動画にアニメーション化）。両モードとも設定可能なアスペクト比（16:9横向き、9:16縦向き）、最大1080p解像度、5-10秒の長さに対応しています。

daVinci MagiHumanは7言語での同期音声生成に対応しています：英語、中国語（普通語）、広東語、日本語、韓国語、ドイツ語、フランス語。リップシンクの単語エラー率14.6%を達成し、Ovi 1.1（40.45%）やLTX 2.3（19.23%）を大幅に上回ります。

daVinci MagiHumanは複数の解像度に対応：256p（最速）、540p（超解像）、720p、1080p（超解像）。動画の長さは1秒刻みで5秒から10秒まで設定可能。横向き（16:9）と縦向き（9:16）の両方のアスペクト比に対応しています。

単一のNVIDIA H100 GPUで、daVinci MagiHumanは5秒の256p動画を約2秒で生成します。より高い解像度では：540pは約8秒、1080pは約38.4秒かかります。この速度はclassifier-free guidanceなしの8ステップDMD-2蒸留により実現されています。

はい、daVinci MagiHumanはSand.aiとSII GAIR LabによりApache 2.0ライセンスで完全にオープンソース化されています。ベースモデルの重み、蒸留モデル、超解像モデル、推論コードを含む完全なスタックが利用可能で、無制限の商用利用が可能です。

daVinci MagiHumanは、self-attentionのみを使用するユニークなシングルストリームTransformerアーキテクチャ（cross-attentionやマルチストリームパスなし）により、単一モデルでの音声動画同時生成を実現する点で際立っています。業界最高のリップシンク精度（14.6% WER）を達成し、7言語に対応、人間評価でOvi 1.1に対して80%の勝率を記録しています。

daVinci MagiHuman テキストから動画の使い方

テキスト説明から同期オーディオ付き動画を生成

プロンプトを書く

作成したい動画の詳細な説明を入力してください。最適なリップシンク結果のために、主題、アクション、音声内容、希望する言語を含めてください。

daVinci MagiHuman 画像から動画の使い方

静止画像を同期オーディオ付き動画にアニメーション化

画像をアップロード

アニメーション化したい人物やシーンのリファレンス画像をアップロード。daVinci MagiHumanはリアルな表情と体の動きの人間中心コンテンツに優れています。

Pricing · Choose Yours

料金

あなたに合ったプランを選んでください。隠れた料金や予期せぬ費用はありません。

一回限りは暗号通貨決済に対応 (BTC, USDT, ETH, 350+)

月間請求

無料-一回限り

購入前にお試し

0

一回限り

USD

無料

32クレジット

最大 3 動画

最大 32 画像

マルチモデル対応

テキストから動画

画像から動画

動画から動画

キャラクター一貫性

AIアニメーション生成

テンプレートとエフェクト

AI動画エンハンサー

インタラクティブコミュニティ

高速生成

透かしなし出力

カメラワーク追加

動画プライバシー

コピー保護

優先サポート

人気

Pro-1ヶ月

AIエクスペリエンスを向上

29.99

1ヶ月

USD

800

800クレジット1ヶ月

最大 80 動画1ヶ月

最大 800 画像1ヶ月

3 タスク(並列タスク)

マルチモデル対応

テキストから動画

画像から動画

動画から動画

キャラクター一貫性

AIアニメーション生成

テンプレートとエフェクト

AI動画エンハンサー

インタラクティブコミュニティ

高速生成

透かしなし出力

カメラワーク追加

動画プライバシー

コピー保護

優先サポート

Lite-1ヶ月

AIの旅を始めよう

9.99

1ヶ月

USD

200クレジット1ヶ月

最大 20 動画1ヶ月

最大 200 画像1ヶ月

3 タスク(並列タスク)

マルチモデル対応

テキストから動画

画像から動画

動画から動画

キャラクター一貫性

AIアニメーション生成

テンプレートとエフェクト

AI動画エンハンサー

インタラクティブコミュニティ

高速生成

透かしなし出力

カメラワーク追加

動画プライバシー

コピー保護

優先サポート

詳細な価格を見る