Logo

daVinci MagiHuman 텍스트/이미지 비디오 생성기 - 오디오 동기화 지원

daVinci MagiHuman으로 비디오를 만드세요 - Sand.ai와 SII GAIR Lab이 공동 개발한 150억 파라미터 오픈소스 오디오-비디오 기반 모델. 텍스트나 이미지에서 동기화된 비디오와 오디오를 생성, 7개 언어 업계 최고 립싱크 정확도. 최대 1080p, 5-10초. 싱글스트림 Transformer 아키텍처, H100 1장에서 5초 256p 비디오를 단 2초에 생성.

공개
*

daVinci MagiHuman Text to Video Gallery

Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.

Create with daVinci MagiHuman
AI Video

Rainy Tokyo Night

A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.

Prompt

Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.

daVinci MagiHuman Image to Video Gallery

Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

Create with daVinci MagiHuman
Input
Podcast Host Speaking - Input 1
Output
Podcast Host Speaking

daVinci MagiHuman YouTube 동영상

daVinci MagiHuman의 오디오-비디오 생성 기능을 보여주는 커뮤니티 데모와 리뷰를 시청하세요

  • daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
  • 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
  • LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
  • Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
  • New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research

daVinci MagiHuman YouTube 동영상

daVinci MagiHuman의 오디오-비디오 생성 기능을 보여주는 커뮤니티 데모와 리뷰를 시청하세요

daVinci MagiHuman X의 인기 리뷰

X (Twitter)에서 daVinci MagiHuman에 대해 사람들이 무엇을 말하는지 확인하세요

映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい

Reply

DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…

Wildminder
Wildminder
@wildmindai

daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic

Reply

daVinci MagiHuman이란

Sand.ai의 150억 파라미터 오픈소스 오디오-비디오 기반 모델, 최고의 립싱크

150억파라미터
1080p최대 해상도
7개지원 언어
2초256p 생성 속도

daVinci MagiHuman은 150억 파라미터의 싱글스트림 Transformer로, 텍스트나 이미지에서 동기화된 비디오와 오디오를 공동 생성하며, 7개 언어에서 14.6%의 단어 오류율로 업계 최고의 립싱크 정확도를 달성합니다.

daVinci MagiHuman의 강력한 기능

daVinci MagiHuman을 오디오-비디오 생성에서 탁월하게 만드는 고급 기능을 알아보세요

오디오-비디오 동시 생성

self-attention만 사용하는 통합 싱글스트림 Transformer 아키텍처로 한 번의 패스에서 동기화된 비디오와 오디오를 생성합니다. 별도의 오디오 파이프라인이 필요 없습니다.

업계 최고의 립싱크

립싱크 단어 오류율 14.6%로 Ovi 1.1(40.45%)과 LTX 2.3(19.23%)을 크게 능가하는 음성 정확도 벤치마크를 달성합니다.

7개 언어 음성 지원

영어, 중국어(보통화 및 광둥어), 일본어, 한국어, 독일어, 프랑스어로 자연스러운 발음과 입 모양의 음성 동기화 비디오를 생성합니다.

초고속 생성

단일 H100 GPU에서 5초 256p 비디오를 단 2초 만에 생성합니다. 8단계 DMD-2 증류로 classifier-free guidance 없이 품질을 유지합니다.

이중 입력 모드

텍스트 프롬프트에서 비디오를 만들거나 정지 이미지를 애니메이션화합니다. 두 모드 모두 구성 가능한 화면비, 해상도, 5-10초 길이를 지원합니다.

최대 1080p 초해상도

잠재 공간 초해상도 파이프라인을 통해 256p, 540p, 720p 또는 1080p 비디오를 생성합니다. 추가 VAE 디코딩-인코딩 오버헤드 없이 효율적으로 출력합니다.

오픈소스 Apache 2.0

Apache 2.0 라이선스로 완전 오픈소스. 기본 가중치, 증류 모델, 초해상도 모델, 추론 코드의 전체 스택을 포함하여 무제한 상업적 사용 가능.

인간 중심 우수성

디지털 휴먼 생성에 특화. 풍부한 표정, 사실적인 신체 움직임, 프레임 간 일관된 캐릭터 유지로 전문 토킹 헤드 콘텐츠에 최적.

자주 묻는 질문

daVinci MagiHuman 오디오-비디오 생성에 대한 일반적인 질문

더 궁금한 점이 있으신가요?

daVinci MagiHuman은 두 가지 주요 입력 모드를 지원합니다: 텍스트-비디오(텍스트 프롬프트에서 동기화된 오디오가 포함된 비디오 생성)와 이미지-비디오(정지 이미지를 선택적 오디오가 포함된 모션 비디오로 애니메이션화). 두 모드 모두 구성 가능한 화면비(16:9 가로, 9:16 세로), 최대 1080p 해상도, 5-10초 길이를 지원합니다.
daVinci MagiHuman은 7개 언어의 동기화된 음성 생성을 지원합니다: 영어, 중국어(보통화), 광둥어, 일본어, 한국어, 독일어, 프랑스어. 이 모델은 립싱크에서 14.6%의 단어 오류율을 달성하여 Ovi 1.1(40.45%)과 LTX 2.3(19.23%)을 크게 능가합니다.
daVinci MagiHuman은 여러 해상도를 지원합니다: 256p(가장 빠름), 540p(초해상도), 720p, 1080p(초해상도). 비디오 길이는 1초 단위로 5초에서 10초까지 구성할 수 있습니다. 가로(16:9)와 세로(9:16) 화면비를 모두 지원합니다.
단일 NVIDIA H100 GPU에서 daVinci MagiHuman은 5초 256p 비디오를 약 2초 만에 생성합니다. 더 높은 해상도의 경우: 540p는 약 8초, 1080p는 약 38.4초가 소요됩니다. 이 속도는 classifier-free guidance 없는 8단계 DMD-2 증류를 통해 달성됩니다.
네, daVinci MagiHuman은 Sand.ai와 SII GAIR Lab에 의해 Apache 2.0 라이선스로 완전히 오픈소스화되어 있습니다. 기본 모델 가중치, 증류 모델, 초해상도 모델, 추론 코드를 포함한 전체 스택이 제공되어 무제한 상업적 사용이 가능합니다.
daVinci MagiHuman은 self-attention만 사용하는 독특한 싱글스트림 Transformer 아키텍처(cross-attention이나 멀티스트림 경로 없음)로 단일 모델에서 오디오-비디오 동시 생성을 구현한다는 점에서 차별화됩니다. 업계 최고의 립싱크 정확도(14.6% WER)를 달성하고, 7개 언어를 지원하며, 인간 평가에서 Ovi 1.1 대비 80% 승률을 기록합니다.

daVinci MagiHuman 텍스트-비디오 사용법

텍스트 설명에서 동기화된 오디오가 포함된 비디오 생성

1
프롬프트 작성
2
설정 구성
3
비디오 생성

만들고 싶은 비디오의 상세한 설명을 입력하세요. 최적의 립싱크 결과를 위해 주제, 동작, 음성 내용, 원하는 언어를 포함하세요.

daVinci MagiHuman 이미지-비디오 사용법

정지 이미지를 동기화된 오디오가 포함된 비디오로 애니메이션화

1
이미지 업로드
2
프롬프트와 설정 추가
3
애니메이션 비디오 생성

애니메이션화할 인물이나 장면의 참조 이미지를 업로드하세요. daVinci MagiHuman은 사실적인 표정과 신체 움직임의 인간 중심 콘텐츠에 탁월합니다.

요금

당신에게 맞는 플랜을 선택하세요. 숨겨진 요금이나 예상치 못한 비용은 없습니다.

월간 청구

무료

구매 전 체험

0
1회
USD
무료
32points
최대 3
최대 32
다중 모델 지원
텍스트를 비디오로
이미지를 비디오로
비디오를 비디오로
일관된 캐릭터
AI 애니메이션 생성기
템플릿 및 효과
AI 비디오 향상
인터랙티브 커뮤니티
더 빠른 생성 속도
워터마크 없는 출력
더 많은 카메라 움직임
비공개 비디오 설정
복사 보호
우선 지원
인기

프로

AI 경험을 향상시키세요

29.99
1개월
USD
800
800points1개월
최대 801개월
최대 8001개월
3(병렬 작업 수)
다중 모델 지원
텍스트를 비디오로
이미지를 비디오로
비디오를 비디오로
일관된 캐릭터
AI 애니메이션 생성기
템플릿 및 효과
AI 비디오 향상
인터랙티브 커뮤니티
더 빠른 생성 속도
워터마크 없는 출력
더 많은 카메라 움직임
비공개 비디오 설정
복사 보호
우선 지원

라이트

AI 여정을 시작하세요

9.99
1개월
USD
200points1개월
최대 201개월
최대 2001개월
3(병렬 작업 수)
다중 모델 지원
텍스트를 비디오로
이미지를 비디오로
비디오를 비디오로
일관된 캐릭터
AI 애니메이션 생성기
템플릿 및 효과
AI 비디오 향상
인터랙티브 커뮤니티
더 빠른 생성 속도
워터마크 없는 출력
더 많은 카메라 움직임
비공개 비디오 설정
복사 보호
우선 지원