EMO란? - 말하고 노래하는 인물 영상을 생성하는 알리바바 그룹의 AI 모델

알리바바 그룹의 지능형 컴퓨팅 연구소(Institute for Intelligent Computing)에서 EMO라는 혁신적인 AI 영상 생성 모델을 공개했습니다.

EMO는 사용자가 인물/캐릭터 이미지와 오디오를 함께 입력하면 → 해당 인물/캐릭터가 오디오 내용에 맞춰 말하거나 노래하는 영상을 생성하는 모델입니다.

공개된 모든 영상을 검토한 결과, 생성된 영상 속 인물의 표정이 풍부하며, 말하는 내용과 입 모양이 자연스럽게 매칭되는 것을 알 수 있었습니다.

🛎️ EMO는 최근 허깅페이스를 통해 공개된 모델로 아직 일반 유저에게는 배포되지 않았습니다.

EMO 영상 샘플

지금부터 EMO로 생성된 영상을 함께 보겠습니다.

먼저 오드리 햅번(Audrey Kathleen Hepburn-Ruston)의 다양한 사진을 사만다 하비(Samantha Harvey)가 커버한 Ed Sheeran의 Perfect와 합쳐 생성한 영상입니다.

다음으로 최근 공개되어 많은 파장을 불러일으킨 OpenAI의 Sora의 대표 샘플 영상에 출연한 여성의 이미지에 OpenAI의 CTO인 미라 무라티(Mira Murati)의 음성을 합쳐 생성한 영상입니다.

다음으로 모나리자의 이미지와 국내 걸그룹 (여자)아이들의 우기가 커버한 Miley Cyrus의 Flowers를 합쳐 생성한 영상입니다.

영상에 등장하는 모나리자 이미지 또한 AI 이미지 생성 모델인 dreamshaper XL을 통해 만들어졌습니다.

허깅페이스 문서에는 위 영상 외에도 다양한 영상 샘플이 공개되어 있습니다.

알리바바 그룹의 지능형 컴퓨팅 연구소는 EMO 외에도 다양한 AI 모델을 공개했습니다.

대표적으로 이미지 속 인물이나 캐릭터를 춤추게 할 수 있는 Animate Anyone 모델은 공개 직후 대중의 엄청난 관심을 받았습니다.

개인적으로 최근 공개된 OpenAI의 Sora의 임팩트가 너무 강했어서 Sora를 접했을 당시만큼 놀라진 않았으나, EMO도 저에게는 신선한 충격이었습니다.

EMO로 생성된 더욱 다양한 영상을 보고 싶으신 독자분께서는 아래 페이지에 방문해 보시기 바랍니다.