마이크로소프트가 VASA-1이라는 가상 AI 캐릭터 생성 모델을 공개했습니다.
VASA-1은 사용자가 인물이나 캐릭터의 초상화와 오디오를 함께 입력하면, 해당 인물이나 캐릭터가 오디오에 맞춰 말하는 가상 캐릭터를 생성하는 모델입니다.
이 모델은 음성과 동기화된 입술 움직임뿐만 아니라, 다양한 얼굴 표정과 자연스러운 머리 움직임까지 표현할 수 있어 매우 사실적인 모습을 보여줍니다.
뿐만 아니라 여러 옵션 설정을 통해 인물이 말하는 모습을 다양한 형태로 구현할 수 있습니다.
VASA-1 영상 샘플
지금부터 마이크로소프트에서 공개한 VASA-1의 다양한 영상을 함께 살펴보겠습니다.
1. 인물 시선 방향 조정
영상 속 인물이 왼쪽부터 순서대로 정면, 왼쪽, 오른쪽, 위쪽을 바라보며 말합니다.
2. 인물 거리 조정
영상 속 인물이 오른쪽으로 갈수록 카메라에 점점 가까워집니다.
3. 감정 설정
인물의 감정을 설정할 수 있습니다. 왼쪽부터 각각 중립, 행복, 분노, 놀란 감정이 적용된 영상입니다.
4. 예술 사진, 노래, 영어 외 언어
인간이 영어로 말하는 영상 외에도, 모나리자가 랩하는 영상, 애니메이션 캐릭터가 노래하는 영상 등 다양한 영상을 만들 수 있습니다. 또한, 영어 외 다른 언어도 구현 가능합니다.
5. 동일한 표정 및 움직임 적용
세 가지 다른 인물 초상화에 동일한 표정과 움직임을 적용한 예시입니다.
6. 포즈 및 표정 편집
왼쪽 영상에 특정 포즈와 표정을 적용하여 나머지 영상을 생성한 예시입니다.
실시간 데모
아래는 실시간 데모 영상입니다. 인물을 변경 적용하는 것에 딜레이가 전혀 없을뿐더러, 마우스를 따라서 인물의 시선이 움직이고, 줌인 줌 아웃 또한 아무런 딜레이가 없이 적용되는 것을 알 수 있습니다.
개인적인 후기
2024년 2월 28일 알리바바 그룹에서 말하고 노래하는 인물 영상을 만드는 EMO를 공개했었습니다. 공개 당시 살면서 처음 보는 기술에 적잖이 놀랐던 기억이 있습니다.
그로부터 두 달이 지나지 않은 시점에 공개된 VASA-1은, EMO가 줬던 놀라움과는 비교할 수 없을 정도로 큰 충격을 저에게 안겨주었습니다.
특히 실시간 데모 영상을 보며, 새로운 기술을 접하는 설렘과 동시에, AI 모델이 딥페이크 등에 오남용될 가능성에 대한 우려가 함께 들었습니다.
마이크로소프트에서도 이러한 위험 요소를 인지하고, 해당 기술이 적절한 규정에 따라 책임감 있게 사용될 것이라는 확신이 들 때까지 온라인 데모, API, 제품, 추가 구현 세부 정보 또는 관련 제품을 출시할 계획이 없다고 밝혔습니다.
AI가 인류에 긍정적인 영향을 주는 방향으로 발전되길 바라며 이번 포스팅을 마무리하겠습니다.