구글 이마젠 2(Imagen 2)란? – 구글 딥마인드의 AI 이미지 생성 모델


이번 포스팅에서는 구글의 AI 이미지 생성 모델인 이마젠 2(Imagine 2)에 대해 소개하겠습니다. 이 모델은 알파고로 유명한 구글 딥마인드에서 개발했습니다.

이마젠 2는 2023년 12월 14일 구글 클라우드의 생성형 AI 스튜디오에 적용되었습니다.

이마젠 2

이미지 생성 기능은 액세스를 신청한 후 승인되면 사용할 수 있으며, 이미지 생성 외 다른 몇 가지 기능은 즉시 사용해 볼 수 있습니다.

구글 이마젠 2 장점 및 주요 기능

지금부터 구글 클라우드 블로그구글 딥마인드 블로그에서 이마젠 2를 소개하는 내용 중 주요 내용을 정리해서 공유드리겠습니다.

개인적으로 현시점 최고의 AI 이미지 생성 모델로 평가하는 OpenAI 사의 달리3와의 비교도 포함했습니다.

1. 사용자의 명령어(프롬프트)를 이미지로 정확하게 구현

AI 이미지 생성 모델은 이미지와 그 이미지에 대한 설명을 함께 학습합니다.

이마젠 2의 학습 데이터에는 이미지에 대한 보다 자세한 설명이 추가되어 사용자의 요구를 더 정확히 파악하고, 그에 맞는 이미지를 만들어낼 수 있는 능력이 향상되었습니다.

즉, 사용자가 입력한 텍스트 명령어(프롬프트) 내 여러 가지 요청사항을 정확하게 이미지로 구현할 수 있습니다.

이마젠 2
Soft purl the streams, the birds renew their notes, And through the air their mingled music floats.” (A Hymn to the Evening by Phillis Wheatley)
이마젠 2
Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure." (Moby-Dick by Herman Melville)

현재로서는 OpenAI 사의 달리3 모델이 그 어떤 모델보다 프롬프트를 정확하게 이미지로 구현합니다. 이마젠이 이 부분에 있어 달리3의 경쟁상대가 될 수 있을지 기대됩니다.


2. 고해상도의 사실적인 이미지

이마젠 2 모델은 대부분의 AI 이미지 생성 모델이 정확하게 표현하지 못하는 사람의 손이나 얼굴과 같은 부분을 더 현실적으로 표현할 수 있고, 이미지에 시각적인 결함을 줄이는 데 탁월하다고 합니다.

이마젠 2

손가락과 얼굴과 같은 인간의 신체 부위를 정확하게 표현하지 못하는 것은 제가 생각하는 달리3의 최대 약점입니다. 단, 달리3도 위 예시와 같은 클로즈업 샷에서는 신체 부위를 정확하게 표현하는 편입니다.

만약 이마젠 2가 원거리 샷에서도 신체 부위를 정확하게 표현할 수 있다면, 큰 차별화 요소가 될 수 있을 것입니다.

3. 스타일 참조

텍스트 명령어와 참조 이미지를 함께 제공해서 원하는 스타일이 반영된 이미지를 생성할 수 있습니다.

이마젠 2

4. 인페인팅, 아웃페인팅

AI 이미지 생성 분야에서의 인페인팅은 이미지 내 특정 영역을 삭제 해당 영역에 AI로 생성한 새로운 이미지를 생성해서 채워 넣는 기능

이마젠 2

아웃페인팅은 원본 이미지의 바깥쪽 부분을 AI가 어울리게 채워주는 기능입니다.

이마젠 2

달리3는 현재 인/아웃페인팅 기능이 지원되지 않습니다. 다만, 이전 버전인 달리2에서 해당 기능이 지원됐었기 때문에 머지않은 시점에 적용될 가능성이 높아 보입니다.

5. 텍스트의 이미지 구현

텍스트를 이미지로 정확하게 구현할 수 있는 AI 이미지 생성 모델은 아직 전 세계적으로 많지 않습니다. 현재 달리3나 이디어그램(Ideogram)이 텍스트를 이미지로 그나마 정확하게 구현하는 모델입니다.

하지만 문장이 길어지면 오탈자나 이해하기 어려운 외계어가 생기는 경우가 굉장히 많고, 사전 없는 단어는 제대로 구현하지 못하는 편입니다. 이마저도 영어만 가능합니다.

이마젠 2

구글에서 작성한 이마젠 2 소개 포스팅에서 제공한 샘플에서도 짧은 영어 텍스트가 이미지로 구현된 예시밖에는 볼 수 없었습니다. 달리3 도 위 예시보다 더 긴 텍스트를 충분히 구현할 수 있습니다.

6. 로고 생성

비즈니스, 브랜드, 제품을 위한 엠블럼, 레터마크, 추상 로고 등 다양하고 창의적이며 사실적인 로고를 생성할 수 있습니다. 또한 이러한 로고를 제품, 의류, 명함 및 기타 표면에 오버레이 할 수 있는 기능도 제공됩니다.

이마젠 2

위 예시 수준의 로고 또한 달리3로도 충분히 만들 수 있습니다.

7. 특정 이미지에 대한 설명 생성, 관련 대화

이미지에 대한 설명을 AI로부터 역으로 얻어내거나

이마젠 2
CAPTION 기능

AI 이미지에 대해 대화를 나눌 수 있는 기능입니다. 이 기능들은 구글 클라우드 생성형 AI 스튜디오에서 테스트해 볼 수 있습니다.

이마젠 2
VISUAL Q & A 기능

AI로 만든 그리스 산토리니 이미지를 업로드한 후 '이 사진에 대해 너가 묘사할 수 있는 만큼 최대한 상세하게 묘사해줘'라고 문의했더니 buildings라고 답변했으며, '사진 속 건물의 개수가 몇 개야?'라고 문의했을 때는 lots라고 답변했습니다.

챗GPT에서도 이미지를 업로드한 후 이미지에 대해 챗GPT와 대화를 나눌 수 있습니다.

이마젠 2

챗GPT의 답변이 훨씬 더 자세한 것을 볼 수 있습니다.

8. 다양한 언어 지원

영어뿐만 아니라 중국어, 힌디어, 일본어, 한국어, 포르투갈어, 스페인어도 지원합니다. 또, 다른 언어로 질문하고 그 답을 다른 언어로 받을 수 있는 번역 기능도 있습니다.

9. 안전성

이마젠 2는 텍스트 명령어로 AI 이미지 생성 시 존재하는 잠재적 리스크 요인을 최소화하기 위한 장치가 있습니다. 먼저 이마젠 2는 디지털 워터마킹 서비스인 신스ID (SynthID)와 통합되어 눈에 띄지 않는 디지털 워터마크를 이미지 품질 저하 없이 추가할 수 있습니다.

또한 이마젠 2에는 포괄적인 안전 필터가 포함되어 있어 폭력적이거나 모욕적이거나 성적으로 노골적인 콘텐츠 또는 특정 인물의 이미지의 생성을 방지할 수 있습니다.

이마젠 2 데모 영상

구글 클라우드 유튜브에서는 이마젠의 데모 영상을 제공합니다. 2023년 5월 업로드된 영상으로 현재는 영상 제작 대비 성능이 더욱 많이 개선되었을 것으로 보입니다.

이 영상에서는 텍스트 명령어를 통한 AI 가방 이미지 생성 및 편집, 직접 업로드한 가방 이미지를 전 세계 여러 장소에 있는 것처럼 꾸미기 등을 시연합니다. 또한 업스케일 기능도 제공되는 것을 알 수 있었습니다.


개인적인 평가

이마젠 2로 이미지를 생성해 보지는 못했기 때문에 정확한 평가는 어렵습니다. 다만, 현재 사용해 볼 수 있는 업로드한 이미지에 대해 대화를 나눌 수 있는 기능이 실망스러운 결과를 보여주었고, 이로 인해 이미지 생성 기능에 대한 기대감도 낮아졌습니다.

또한, 구글 블로그에서 소개된 이마젠의 주요 기능 중 대부분은 현재 달리3가 탑재된 챗GPT에서도 제공되고 있어, 이마젠만의 특별한 장점을 찾기 어려웠습니다.

마지막으로, 이마젠 2는 개별 웹 사이트나 앱이 아닌, 구글 클라우드 생성형 AI 스튜디오에서 비용을 지불하고 사용해야 하므로 접근성 측면에서도 불편함이 있습니다.

OpenAI의 달리3도 출시 전에는 대부분의 유저가 큰 기대를 하지 않았지만, 출시 직후 AI 이미지 생성 분야의 판도를 완전히 바꿔놓을 만큼 뛰어난 성능을 보여줬습니다.

이마젠도 달리3처럼 놀라운 성능을 보여줄 수 있기를 기대하며, 이번 포스팅을 마무리하겠습니다.

Leave a Comment