🪄 Introducing daVinci-MagiHuman: The Performance-Level Audio-Video Generative Foundation Model Proudly open-sourced and jointly developed by SII GAIR Lab & Sand.ai, it sets a new standard for multimodal AI. ⏳ 1/6
daVinci MagiHuman 텍스트/이미지 비디오 생성기 - 오디오 동기화 지원
daVinci MagiHuman으로 비디오를 만드세요 - Sand.ai와 SII GAIR Lab이 공동 개발한 150억 파라미터 오픈소스 오디오-비디오 기반 모델. 텍스트나 이미지에서 동기화된 비디오와 오디오를 생성, 7개 언어 업계 최고 립싱크 정확도. 최대 1080p, 5-10초. 싱글스트림 Transformer 아키텍처, H100 1장에서 5초 256p 비디오를 단 2초에 생성.
daVinci MagiHuman Text to Video Gallery
Experience the cinematic power of daVinci MagiHuman text-to-video generation. Create stunning videos with synchronized audio from detailed text descriptions, featuring industry-leading lip sync across 7 languages.
Rainy Tokyo Night
A woman in a red coat walks through a neon-lit Tokyo alley on a rainy night with shimmering reflections.
“Rainy night in a neon-lit Tokyo alley, a woman in a red coat walks slowly under an umbrella. Reflections shimmer on wet cobblestones. Handheld camera follows her from behind, bokeh street lights, cinematic color grade, moody atmosphere.”
daVinci MagiHuman Image to Video Gallery
Transform your static images into dynamic videos with daVinci MagiHuman. Experience seamless image-to-video conversion with realistic facial expressions, natural body motion, and synchronized lip-synced audio.

daVinci MagiHuman YouTube 동영상
daVinci MagiHuman의 오디오-비디오 생성 기능을 보여주는 커뮤니티 데모와 리뷰를 시청하세요
- daVinci-MagiHuman: Fast Audio-Video Synthesis - AI Research Roundup
- 达芬奇最新开源模型,革命Seedance2.0 DaVinci-MagiHuman:开源音视频生成新标杆,5秒视频2秒出,还能说6种语言! - XIAOXIAO LI
- LTX 2.3, Veo и Sora больше не нужны? Тестируем daVinci-MagiHuman - ServerFlow AI Lab - R&D в области ИИ и LLM
- Ai动画224-化繁为简!daVinci-MagiHuman,快速音视频生成基础模型的单流架构,支持多国语言,音画同步,音色参考-T8 Comfyui教程 - T8star-Aix
- New OpenSource Video Model, #1 Image generator, Seedance 2.0 Drop, replit and lovable in danger - AI Research
daVinci MagiHuman YouTube 동영상
daVinci MagiHuman의 오디오-비디오 생성 기능을 보여주는 커뮤니티 데모와 리뷰를 시청하세요
daVinci MagiHuman X의 인기 리뷰
X (Twitter)에서 daVinci MagiHuman에 대해 사람들이 무엇을 말하는지 확인하세요
daVinci-MagiHuman is a 15B single-stream Transformer, trained from scratch to generate synced video+audio with self-attention only—no cross-attention or multi-stream paths. It is open-source, supports 6 languages, beats Ovi/LTX, and runs on one H100.
I have been testing open source daVinci-MagiHuman, a single-stream 15B Transformer trained from scratch that jointly generates video + audio. 5s 1080p video in 38s on a single H100, about 1 minute on newer gaming Nvidia GPUs By @SII_GAIR + @SandAI_HQ
daVinci-MagiHumanという新しい動画生成モデルがオープンで出た。これがLTX-2.3よりもすごいとかいう話。特にオーディオ生成がいい感じらしい。さらに多言語対応してて日本語の音声も対応してると書かれてる。開発したGAIRってのは上海イノベーション研究所内の研究ラボらしい reddit.com/r/StableDiffus…
映像と音声を同時生成のオープンソースモデル「daVinci-MagiHuman」が登場 ・OSS界隈ではトップクラスの性能 ・日中英韓独仏の6言語対応 ・音声認識誤り率14.6% クローズドのSeedance 2.0に対抗。デモの感じは精度が高そう H100で5秒間の1080p動画を38秒で生成したらしい
動画生成AIはオープンソースでも戦えるか? daVinci-MagiHuman は、動画と音声をシングルストリームの15B Transformerで同時生成する完全オープンソースモデル。 Ovi 1.1に80.0%、LTX 2.3に60.9%勝率。 H100で1080pの5秒の動画を38.4秒で生成。日本語にも対応! 詳細は🧵
DaVinci-MagiHuman for ComfyUI. - 15B-param single-stream model runs in ~6GB VRAM via block-level swapping; - 8-step distillation; github.com/mjansrud/Comfy…
daVinci-MagiHuman. We have another fast single-stream audio-video 15B foundation model by @SandAI_HQ > no separate pathways or cross-attention modules. > just raw self-attention doing all the heavy lifting. > wins 80% vs Ovi 1.1, 60% vs LTX 2.3; > native multilingual realistic
daVinci MagiHuman이란
Sand.ai의 150억 파라미터 오픈소스 오디오-비디오 기반 모델, 최고의 립싱크
daVinci MagiHuman은 150억 파라미터의 싱글스트림 Transformer로, 텍스트나 이미지에서 동기화된 비디오와 오디오를 공동 생성하며, 7개 언어에서 14.6%의 단어 오류율로 업계 최고의 립싱크 정확도를 달성합니다.
daVinci MagiHuman이란
Sand.ai의 150억 파라미터 오픈소스 오디오-비디오 기반 모델, 최고의 립싱크
daVinci MagiHuman은 150억 파라미터의 싱글스트림 Transformer로, 텍스트나 이미지에서 동기화된 비디오와 오디오를 공동 생성하며, 7개 언어에서 14.6%의 단어 오류율로 업계 최고의 립싱크 정확도를 달성합니다.
daVinci MagiHuman의 강력한 기능
daVinci MagiHuman을 오디오-비디오 생성에서 탁월하게 만드는 고급 기능을 알아보세요
오디오-비디오 동시 생성
self-attention만 사용하는 통합 싱글스트림 Transformer 아키텍처로 한 번의 패스에서 동기화된 비디오와 오디오를 생성합니다. 별도의 오디오 파이프라인이 필요 없습니다.
업계 최고의 립싱크
립싱크 단어 오류율 14.6%로 Ovi 1.1(40.45%)과 LTX 2.3(19.23%)을 크게 능가하는 음성 정확도 벤치마크를 달성합니다.
7개 언어 음성 지원
영어, 중국어(보통화 및 광둥어), 일본어, 한국어, 독일어, 프랑스어로 자연스러운 발음과 입 모양의 음성 동기화 비디오를 생성합니다.
초고속 생성
단일 H100 GPU에서 5초 256p 비디오를 단 2초 만에 생성합니다. 8단계 DMD-2 증류로 classifier-free guidance 없이 품질을 유지합니다.
이중 입력 모드
텍스트 프롬프트에서 비디오를 만들거나 정지 이미지를 애니메이션화합니다. 두 모드 모두 구성 가능한 화면비, 해상도, 5-10초 길이를 지원합니다.
최대 1080p 초해상도
잠재 공간 초해상도 파이프라인을 통해 256p, 540p, 720p 또는 1080p 비디오를 생성합니다. 추가 VAE 디코딩-인코딩 오버헤드 없이 효율적으로 출력합니다.
오픈소스 Apache 2.0
Apache 2.0 라이선스로 완전 오픈소스. 기본 가중치, 증류 모델, 초해상도 모델, 추론 코드의 전체 스택을 포함하여 무제한 상업적 사용 가능.
인간 중심 우수성
디지털 휴먼 생성에 특화. 풍부한 표정, 사실적인 신체 움직임, 프레임 간 일관된 캐릭터 유지로 전문 토킹 헤드 콘텐츠에 최적.
daVinci MagiHuman 텍스트-비디오 사용법
텍스트 설명에서 동기화된 오디오가 포함된 비디오 생성
만들고 싶은 비디오의 상세한 설명을 입력하세요. 최적의 립싱크 결과를 위해 주제, 동작, 음성 내용, 원하는 언어를 포함하세요.
daVinci MagiHuman 이미지-비디오 사용법
정지 이미지를 동기화된 오디오가 포함된 비디오로 애니메이션화
애니메이션화할 인물이나 장면의 참조 이미지를 업로드하세요. daVinci MagiHuman은 사실적인 표정과 신체 움직임의 인간 중심 콘텐츠에 탁월합니다.