OpenAI에서 공식 블로그를 통해 보이스 엔진(Voice Engine)에 대한 소개와 함께 데모 음성을 공개했습니다. 보이스 엔진에 대한 상표권을 출원한지 2주가 지나지 않은 시점에 공개된 내용입니다.
이번 포스팅에서는 OpenAI 보이스 엔진에 대해 소개한 후, 공개된 데모 음성을 함께 들어보겠습니다.
OpenAI 보이스 엔진
OpenAI 보이스 엔진은 2022년 말에 개발되어 텍스트 명령어를 음성으로 변환하는 text-to-speech API와 챗GPT의 음성 대화 기능인 ChatGPT Voice and Read Aloud에 적용되었습니다.
해당 엔진은 말하는 AI 아바타를 생성하는 서비스 헤이젠(HeyGen), 어린이 교육 전문 기업 Age of Learning 등 다양한 서비스에도 도입되어 활용되고 있습니다.
즉, OpenAI 보이스 엔진은 사용자에게 알려지지 않았을 뿐, 이미 여러 유명한 AI 서비스에 적용된 서비스입니다.
데모 음성
지금부터 OpenAI에서 공개한 데모 음성을 함께 들어보겠습니다. AI가 원본 영어 음성을 참조한 후, 유사한 목소리로 생성한 스페인어, 만다린어, 독일어, 프랑스어, 일본어 음성 데모입니다.
OpenAI 보이스 엔진이 번역에 사용되는 경우, 원래 화자의 원어민 악센트를 유지합니다. 예를 들어 프랑스어 사용자의 오디오 샘플로 영어를 생성하면 프랑스어 악센트가 포함된 음성이 생성됩니다.
영어 (원본 음성)
스페인어(AI)
만다린어(AI)
독일어(AI)
프랑스어(AI)
일본어(AI)
어떠신가요? 개인적으로는 음성의 일관성이 거의 완벽에 가깝게 느껴졌으며, 악센트가 유지되는 부분도 놀라웠습니다.
OpenAI 공식 블로그에 더욱 다양한 데모 음성이 공개되어 있으니, 관심 있으신 독자분께서는 방문해 보시기 바랍니다.
OpenAI 보이스 엔진 출시 관련 정보
앞서 말씀드렸듯이, 보이스 엔진은 이미 여러 기업의 AI 서비스에 적용되어 있습니다. 다만, 일반 사용자에게는 아직 배포되지 않았습니다.
OpenAI는 공식 블로그를 통해 AI 안전에 대한 접근 방식과 자발적인 약속을 근거로 보이스 엔진을 널리 출시하지 않았다는 언급과 함께, 일반 사용자 배포 관련해서도 아직 결정된 것이 없다고 언급했습니다.
개인적인 후기
AI 아바타 생성 서비스 헤이젠(Heygen)은 높은 퀄리티로 유저들에게 호평을 받는 AI 서비스 중 하나입니다.
개인적으로 헤이젠이 자체 엔진이 아닌, OpenAI 보이스 엔진이 탑재되어 있다는 사실이 굉장히 놀라웠습니다.
일반 유저 배포 여부를 알 수 없다고 한 부분은 보이스 피싱, 딥페이크에 악용될 리스크를 최소화하기 위한 것으로 보입니다. OpenAI는 자사의 서비스가 악용될 리스크를 최소화하는데 굉장히 노력하는 기업입니다.
예를 들어, 챗GPT에 탑재된 OpenAI사의 AI 이미지 생성 모델 달리3도 실제 사람 같은 이미지를 생성할 수 있는 능력이 있음에도, 챗GPT에서 이미지 생성 시 매우 AI스러운 이미지가 생성됩니다.
이에 실제 사람 같은 이미지가 생성되는 미드저니와 자주 비교되곤 합니다. 하지만 OpenAI가 그런 이미지를 통해 발생할 수 있는 리스크를 최소화하고 싶어 할 뿐, 실사 이미지를 만드는 기술을 이미 갖춘 상황입니다.
단적인 예로, OpenAI의 AI 영상 생성 모델인 Sora의 데모 영상 속 어떠한 장면도 이미지로 만들 수 있습니다. 아래는 Sora로 생성한 인물 이미지입니다.
비슷한 맥락에서 보이스 엔진 또한 일반 사용자가 아닌 기업에게만 제공함으로써 수익도 창출하고, 자사의 리스크는 최소화하는 전략을 취할 가능성도 충분히 있어 보입니다.
지금까지 OpenAI 보이스 엔진에 대해 함께 살펴보았습니다. OpenAI는 텍스트, 이미지, 영상, 음성까지 모든 분야에서 AGI(일반 인공 지능) 시대를 철처하게 준비해온 것으로 보입니다.