비디오 모델

daVinci MagiHuman 텍스트/이미지 비디오 생성기 - 오디오 동기화 지원

daVinci MagiHuman으로 비디오를 만드세요 - Sand.ai와 SII GAIR Lab이 공동 개발한 150억 파라미터 오픈소스 오디오-비디오 기반 모델. 텍스트나 이미지에서 동기화된 비디오와 오디오를 생성, 7개 언어 업계 최고 립싱크 정확도. 최대 1080p, 5-10초. 싱글스트림 Transformer 아키텍처, H100 1장에서 5초 256p 비디오를 단 2초에 생성.

/video/text-to-video

공개

English로 번역

프롬프트 최적화

*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman

AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”

Live PipelineTake 01 / 01

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman

Source Feeds01 Inputs

Podcast Host Speaking - Input 1

Pipeline

00%

Program · On AirAI · Generated

Output

Transcript · 01

Podcast Host Speaking

daVinci MagiHuman YouTube 동영상

daVinci MagiHuman의 오디오-비디오 생성 기능을 보여주는 커뮤니티 데모와 리뷰를 시청하세요

daVinci MagiHuman X의 인기 리뷰

X (Twitter)에서 daVinci MagiHuman에 대해 사람들이 무엇을 말하는지 확인하세요

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6

2:30 PM · Mar 23, 2026

チャエン | デジライズ CEO《重要AIニュースを毎日最速で発信⚡️》

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場・OSS界隈ではトップクラスの性能・日中英韓独仏の6言語対応・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

9:51 PM · Mar 25, 2026

daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.

2:03 AM · Mar 25, 2026

田中義弘 | taziku CEO / AI × Creative

動画生成AIはオープンソースでも戦えるか？ daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応！詳細は🧵

11:04 AM · Mar 26, 2026

I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ

1:23 PM · Mar 25, 2026

0

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder

@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

9:35 AM · Mar 27, 2026

うみゆき@AI研究

daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…

6:54 AM · Mar 25, 2026

0

Reel · Specifications

daVinci MagiHuman이란

Sand.ai의 150억 파라미터 오픈소스 오디오-비디오 기반 모델, 최고의 립싱크

· 01150억파라미터
· 021080p최대 해상도
· 037개지원 언어
· 042초256p 생성 속도

daVinci MagiHuman은 150억 파라미터의 싱글스트림 Transformer로, 텍스트나 이미지에서 동기화된 비디오와 오디오를 공동 생성하며, 7개 언어에서 14.6%의 단어 오류율로 업계 최고의 립싱크 정확도를 달성합니다.

Reel · Capabilities

daVinci MagiHuman의 강력한 기능

daVinci MagiHuman을 오디오-비디오 생성에서 탁월하게 만드는 고급 기능을 알아보세요

Feature 01 / 08
오디오-비디오 동시 생성
self-attention만 사용하는 통합 싱글스트림 Transformer 아키텍처로 한 번의 패스에서 동기화된 비디오와 오디오를 생성합니다. 별도의 오디오 파이프라인이 필요 없습니다.
Feature 02 / 08
업계 최고의 립싱크
립싱크 단어 오류율 14.6%로 Ovi 1.1(40.45%)과 LTX 2.3(19.23%)을 크게 능가하는 음성 정확도 벤치마크를 달성합니다.
Feature 03 / 08
7개 언어 음성 지원
영어, 중국어(보통화 및 광둥어), 일본어, 한국어, 독일어, 프랑스어로 자연스러운 발음과 입 모양의 음성 동기화 비디오를 생성합니다.
Feature 04 / 08
초고속 생성
단일 H100 GPU에서 5초 256p 비디오를 단 2초 만에 생성합니다. 8단계 DMD-2 증류로 classifier-free guidance 없이 품질을 유지합니다.
Feature 05 / 08
이중 입력 모드
텍스트 프롬프트에서 비디오를 만들거나 정지 이미지를 애니메이션화합니다. 두 모드 모두 구성 가능한 화면비, 해상도, 5-10초 길이를 지원합니다.
Feature 06 / 08
최대 1080p 초해상도
잠재 공간 초해상도 파이프라인을 통해 256p, 540p, 720p 또는 1080p 비디오를 생성합니다. 추가 VAE 디코딩-인코딩 오버헤드 없이 효율적으로 출력합니다.
Feature 07 / 08
오픈소스 Apache 2.0
Apache 2.0 라이선스로 완전 오픈소스. 기본 가중치, 증류 모델, 초해상도 모델, 추론 코드의 전체 스택을 포함하여 무제한 상업적 사용 가능.
Feature 08 / 08
인간 중심 우수성
디지털 휴먼 생성에 특화. 풍부한 표정, 사실적인 신체 움직임, 프레임 간 일관된 캐릭터 유지로 전문 토킹 헤드 콘텐츠에 최적.

FAQ

자주 묻는 질문

daVinci MagiHuman 오디오-비디오 생성에 대한 일반적인 질문

더 궁금한 점이 있으신가요?

[email protected]

Discord 참여하기 티켓 제출

daVinci MagiHuman은 두 가지 주요 입력 모드를 지원합니다: 텍스트-비디오(텍스트 프롬프트에서 동기화된 오디오가 포함된 비디오 생성)와 이미지-비디오(정지 이미지를 선택적 오디오가 포함된 모션 비디오로 애니메이션화). 두 모드 모두 구성 가능한 화면비(16:9 가로, 9:16 세로), 최대 1080p 해상도, 5-10초 길이를 지원합니다.

daVinci MagiHuman은 7개 언어의 동기화된 음성 생성을 지원합니다: 영어, 중국어(보통화), 광둥어, 일본어, 한국어, 독일어, 프랑스어. 이 모델은 립싱크에서 14.6%의 단어 오류율을 달성하여 Ovi 1.1(40.45%)과 LTX 2.3(19.23%)을 크게 능가합니다.

daVinci MagiHuman은 여러 해상도를 지원합니다: 256p(가장 빠름), 540p(초해상도), 720p, 1080p(초해상도). 비디오 길이는 1초 단위로 5초에서 10초까지 구성할 수 있습니다. 가로(16:9)와 세로(9:16) 화면비를 모두 지원합니다.

단일 NVIDIA H100 GPU에서 daVinci MagiHuman은 5초 256p 비디오를 약 2초 만에 생성합니다. 더 높은 해상도의 경우: 540p는 약 8초, 1080p는 약 38.4초가 소요됩니다. 이 속도는 classifier-free guidance 없는 8단계 DMD-2 증류를 통해 달성됩니다.

네, daVinci MagiHuman은 Sand.ai와 SII GAIR Lab에 의해 Apache 2.0 라이선스로 완전히 오픈소스화되어 있습니다. 기본 모델 가중치, 증류 모델, 초해상도 모델, 추론 코드를 포함한 전체 스택이 제공되어 무제한 상업적 사용이 가능합니다.

daVinci MagiHuman은 self-attention만 사용하는 독특한 싱글스트림 Transformer 아키텍처(cross-attention이나 멀티스트림 경로 없음)로 단일 모델에서 오디오-비디오 동시 생성을 구현한다는 점에서 차별화됩니다. 업계 최고의 립싱크 정확도(14.6% WER)를 달성하고, 7개 언어를 지원하며, 인간 평가에서 Ovi 1.1 대비 80% 승률을 기록합니다.

daVinci MagiHuman 텍스트-비디오 사용법

텍스트 설명에서 동기화된 오디오가 포함된 비디오 생성

프롬프트 작성

만들고 싶은 비디오의 상세한 설명을 입력하세요. 최적의 립싱크 결과를 위해 주제, 동작, 음성 내용, 원하는 언어를 포함하세요.

daVinci MagiHuman 이미지-비디오 사용법

정지 이미지를 동기화된 오디오가 포함된 비디오로 애니메이션화

이미지 업로드

애니메이션화할 인물이나 장면의 참조 이미지를 업로드하세요. daVinci MagiHuman은 사실적인 표정과 신체 움직임의 인간 중심 콘텐츠에 탁월합니다.

Pricing · Choose Yours

요금

당신에게 맞는 플랜을 선택하세요. 숨겨진 요금이나 예상치 못한 비용은 없습니다.

일회성 암호화폐 결제 지원 (BTC, USDT, ETH, 350+)

월간 청구

무료-1회

구매 전 체험

0

1회

USD

무료

32크레딧

최대 3 비디오

최대 32 이미지

다중 모델 지원

텍스트에서 비디오

이미지에서 비디오

비디오에서 비디오

일관된 캐릭터

AI 애니메이션 생성기

템플릿 및 효과

AI 비디오 향상

인터랙티브 커뮤니티

빠른 생성 속도

워터마크 없는 출력

더 많은 카메라 움직임

비디오 비공개 설정

복사 보호

우선 지원

인기

Pro-1개월

AI 경험을 향상시키세요

29.99

1개월

USD

800

800크레딧1개월

최대 80 비디오1개월

최대 800 이미지1개월

3 작업(병렬 작업)

다중 모델 지원

텍스트에서 비디오

이미지에서 비디오

비디오에서 비디오

일관된 캐릭터

AI 애니메이션 생성기

템플릿 및 효과

AI 비디오 향상

인터랙티브 커뮤니티

빠른 생성 속도

워터마크 없는 출력

더 많은 카메라 움직임

비디오 비공개 설정

복사 보호

우선 지원

Lite-1개월

AI 여정을 시작하세요

9.99

1개월

USD

200크레딧1개월

최대 20 비디오1개월

최대 200 이미지1개월

3 작업(병렬 작업)

다중 모델 지원

텍스트에서 비디오

이미지에서 비디오

비디오에서 비디오

일관된 캐릭터

AI 애니메이션 생성기

템플릿 및 효과

AI 비디오 향상

인터랙티브 커뮤니티

빠른 생성 속도

워터마크 없는 출력

더 많은 카메라 움직임

비디오 비공개 설정

복사 보호

우선 지원

자세한 가격 보기