Logo
動画モデル

daVinci MagiHuman テキスト/画像から動画生成 オーディオ同期付き

daVinci MagiHumanで動画を作成 - Sand.aiとSII GAIR Labが共同開発した150億パラメータのオープンソース音声動画基盤モデル。テキストや画像から同期した動画と音声を生成、7言語で業界最高のリップシンク精度。最大1080p、5-10秒。シングルストリームTransformerアーキテクチャ、H100 1枚で5秒256p動画をわずか2秒で生成。

/video/text-to-video
公開
*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman
AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Source Feeds01 Inputs
Podcast Host Speaking - Input 1
Program · On AirAI · Generated
Output
Transcript · 01

Podcast Host Speaking

daVinci MagiHuman YouTube動画

daVinci MagiHumanの音声動画生成機能を紹介するコミュニティのデモンストレーションとレビューをご覧ください

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

daVinci MagiHuman YouTube動画

daVinci MagiHumanの音声動画生成機能を紹介するコミュニティのデモンストレーションとレビューをご覧ください

daVinci MagiHuman X での人気レビュー

X (Twitter) で daVinci MagiHuman について何を言っているか見てみましょう

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply
Reel · Specifications

daVinci MagiHumanとは

Sand.aiの150億パラメータオープンソース音声動画基盤モデル、業界最高のリップシンク

  1. · 01150パラメータ
  2. · 021080p最大解像度
  3. · 037対応言語
  4. · 042256p生成速度

daVinci MagiHumanは150億パラメータのシングルストリームTransformerで、テキストや画像から同期した動画と音声を共同生成し、7言語で14.6%の単語エラー率という業界最高のリップシンク精度を達成します。

Reel · Capabilities

daVinci MagiHumanの強力な機能

daVinci MagiHumanを音声動画生成で卓越させる先進機能をご覧ください

  1. Feature 01 / 08

    音声動画同時生成

    統一されたシングルストリームTransformerアーキテクチャでself-attentionのみを使用し、1回のパスで同期した動画と音声を生成。別途の音声パイプラインは不要。

  2. Feature 02 / 08

    業界最高のリップシンク

    リップシンクの単語エラー率14.6%を達成。Ovi 1.1(40.45%)やLTX 2.3(19.23%)を大幅に上回る音声精度ベンチマーク。

  3. Feature 03 / 08

    7言語音声対応

    英語、中国語(普通話・広東語)、日本語、韓国語、ドイツ語、フランス語で自然な発音と唇の動きを持つ音声同期動画を生成。

  4. Feature 04 / 08

    超高速生成

    単一のH100 GPUで5秒の256p動画をわずか2秒で生成。8ステップDMD-2蒸留によりclassifier-free guidanceなしで品質を維持。

  5. Feature 05 / 08

    デュアル入力モード

    テキストプロンプトから動画を作成、または静止画像をアニメーション化。両モードとも設定可能なアスペクト比、解像度、5-10秒の長さに対応。

  6. Feature 06 / 08

    最大1080p超解像

    潜在空間超解像パイプラインにより256p、540p、720p、1080pの動画を生成。追加のVAEデコード・エンコードオーバーヘッドなし。

  7. Feature 07 / 08

    オープンソース Apache 2.0

    Apache 2.0ライセンスで完全オープンソース。ベースウェイト、蒸留モデル、超解像モデル、推論コードの完全なスタックを含み、商用利用無制限。

  8. Feature 08 / 08

    人間中心の卓越性

    デジタルヒューマン生成に特化。表情豊かな顔の動き、リアルな体の動き、フレーム間での一貫したキャラクター保持でプロのトーキングヘッドコンテンツに最適。

FAQ

よくある質問

daVinci MagiHumanの音声動画生成に関するよくある質問

daVinci MagiHumanは2つの主要な入力モードに対応しています:テキストから動画(テキストプロンプトから同期オーディオ付き動画を生成)と画像から動画(静止画をオプションのオーディオ付きモーション動画にアニメーション化)。両モードとも設定可能なアスペクト比(16:9横向き、9:16縦向き)、最大1080p解像度、5-10秒の長さに対応しています。
daVinci MagiHumanは7言語での同期音声生成に対応しています:英語、中国語(普通語)、広東語、日本語、韓国語、ドイツ語、フランス語。リップシンクの単語エラー率14.6%を達成し、Ovi 1.1(40.45%)やLTX 2.3(19.23%)を大幅に上回ります。
daVinci MagiHumanは複数の解像度に対応:256p(最速)、540p(超解像)、720p、1080p(超解像)。動画の長さは1秒刻みで5秒から10秒まで設定可能。横向き(16:9)と縦向き(9:16)の両方のアスペクト比に対応しています。
単一のNVIDIA H100 GPUで、daVinci MagiHumanは5秒の256p動画を約2秒で生成します。より高い解像度では:540pは約8秒、1080pは約38.4秒かかります。この速度はclassifier-free guidanceなしの8ステップDMD-2蒸留により実現されています。
はい、daVinci MagiHumanはSand.aiとSII GAIR LabによりApache 2.0ライセンスで完全にオープンソース化されています。ベースモデルの重み、蒸留モデル、超解像モデル、推論コードを含む完全なスタックが利用可能で、無制限の商用利用が可能です。
daVinci MagiHumanは、self-attentionのみを使用するユニークなシングルストリームTransformerアーキテクチャ(cross-attentionやマルチストリームパスなし)により、単一モデルでの音声動画同時生成を実現する点で際立っています。業界最高のリップシンク精度(14.6% WER)を達成し、7言語に対応、人間評価でOvi 1.1に対して80%の勝率を記録しています。

daVinci MagiHuman テキストから動画の使い方

テキスト説明から同期オーディオ付き動画を生成

プロンプトを書く

作成したい動画の詳細な説明を入力してください。最適なリップシンク結果のために、主題、アクション、音声内容、希望する言語を含めてください。

daVinci MagiHuman 画像から動画の使い方

静止画像を同期オーディオ付き動画にアニメーション化

画像をアップロード

アニメーション化したい人物やシーンのリファレンス画像をアップロード。daVinci MagiHumanはリアルな表情と体の動きの人間中心コンテンツに優れています。

Pricing · Choose Yours

料金

あなたに合ったプランを選んでください。隠れた料金や予期せぬ費用はありません。

一回限り は暗号通貨決済に対応 (BTC, USDT, ETH, 350+)

月間請求

無料

購入前にお試し

0
一回限り
USD
無料
32クレジット
最大 3 動画
最大 32 画像
マルチモデル対応
テキストから動画
画像から動画
動画から動画
キャラクター一貫性
AIアニメーション生成
テンプレートとエフェクト
AI動画エンハンサー
インタラクティブコミュニティ
高速生成
透かしなし出力
カメラワーク追加
動画プライバシー
コピー保護
優先サポート
人気

Pro

AIエクスペリエンスを向上

29.99
1ヶ月
USD
800
800クレジット1ヶ月
最大 80 動画1ヶ月
最大 800 画像1ヶ月
3 タスク(並列タスク)
マルチモデル対応
テキストから動画
画像から動画
動画から動画
キャラクター一貫性
AIアニメーション生成
テンプレートとエフェクト
AI動画エンハンサー
インタラクティブコミュニティ
高速生成
透かしなし出力
カメラワーク追加
動画プライバシー
コピー保護
優先サポート

Lite

AIの旅を始めよう

9.99
1ヶ月
USD
200クレジット1ヶ月
最大 20 動画1ヶ月
最大 200 画像1ヶ月
3 タスク(並列タスク)
マルチモデル対応
テキストから動画
画像から動画
動画から動画
キャラクター一貫性
AIアニメーション生成
テンプレートとエフェクト
AI動画エンハンサー
インタラクティブコミュニティ
高速生成
透かしなし出力
カメラワーク追加
動画プライバシー
コピー保護
優先サポート