미드저니의 V6 모델이 2023년 12월 21일부로 디스코드에서 활성화되었습니다.
V6 모델은 올해 초부터 출시 이야기가 있었으나, 미드저니에서 무려 9개월간 철저하게 준비한 후 출시한 야심작입니다.
이번 포스팅에서는 미드저니 V6 모델의 주요 업데이트 내용을 소개하고, 이 새로운 모델로 생성한 다양한 이미지를 공유하겠습니다.
또한, 미드저니 이미지 생성에 사용된 명령어(프롬프트)를 AI 이미지 생성 분야의 또 다른 리더인 챗GPT(달리3)에 동일하게 입력해서 이미지를 생성한 후 두 모델의 결과물을 비교해 보겠습니다.
아직 미드저니를 접해보지 못한 독자분께서는 미드저니 사용법을 아주 상세하게 설명한 포스팅이 있으니 참조 부탁드립니다.
미드저니 V6 주요 업데이트 사항
먼저 미드저니 V6 주요 업데이트 사항에 대해 미드저니에서 공식적으로 발표한 내용을 공유합니다.
1. 길고 복잡한 명령어(프롬프트)를 정확하게 이미지로 구현
2. 이미지 일관성 및 모델 지식 증가
3. 텍스트 렌더링
4. 원본 이미지 기반의 신규 이미지 생성(Image to Image) 기능 개선, 리믹스 모드 개선
5. 업스케일 모드 추가(Subtle, Creative)
6. 기존의 어떤 모델보다 더욱 사실적인 이미지를 제공
지금부터 미드저니에서 직접 이미지를 생성해 보며 V6 모델의 성능을 테스트해 보겠습니다. 실제로 사용된 명령어는 영문이지만 포스팅 본문에서는 독자분들의 이해를 돕기 위해 한글로 번역한 명령어를 공유하겠습니다.
명령어 → 이미지 구현 정확도
달리3는 사용자가 입력한 명령어의 세부 요청 사항을 정확하게 이해하고 이미지로 구현하는 능력이 현존하는 어떤 모델보다 뛰어납니다. 미드저니의 신규 모델이 이 격차를 얼마나 좁혔을지 테스트해 보겠습니다.
1. 간단한 명령어 구현 테스트
흰색 피아노 건반 위에서 서로 마주 보고 있는 레고 캐릭터 2개
간단한 명령어를 사용한 경우 표현 방식은 조금 다르지만, 미드저니와 달리3 모두 요청 사항을 정확히 반영했습니다.
2. 복잡한 명령어 구현 테스트
종이가 감각적으로 디자인된 책상 위에 놓여 있습니다. 책상 뒤에는 아름다운 바다를 볼 수 있는 커다란 창문이 있습니다. 종이 위에는 고양이 장난감과 상호작용하는 소년 장난감이 있고, 소년이 손을 뻗어 고양이 장난감을 만지려고 합니다.
미드저니는 고양이와 아이를 장난감으로 표현하지 못했고, 아이는 책상 위가 아닌 아래에 위치했습니다.
반면, 달리3는 명령어 내 요청 사항을 거의 정확하게 반영했습니다. 미드저니에서 추가로 여러 차례 생성해 보았으나 원하는 이미지를 얻을 수 없었습니다.
텍스트 렌더링 정확도
AI로 이미지의 활용도를 극대화할 수 있는 텍스트 렌더링(텍스트를 이미지로 구현)이 가능한 모델은 달리3 포함 전 세계적으로 몇 없었습니다. 지금부터 미드저니 V6 버전에 추가된 텍스트 렌더링 기능을 테스트해 보겠습니다.
3. 간단한 텍스트(James Lee) 렌더링 테스트
One line drawing, young Korean man character, text "James Lee"
James Lee처럼 심플한 텍스트는 두 모델 모두 정확하게 구현에 성공했습니다. One line drawing의 표현 방식이 굉장히 다른 것이 눈에 띕니다.
4. 복잡한 텍스트(It’s very cold today, dress warmly and go outside) 렌더링 테스트
Breaking news screen, text "It's very cold today, dress warmly and go outside"
동일한 명령어로 여러 차례 정확한 문구 구현을 시도했으나, 두 모델 모두 정확하게 구현하지 못했습니다. 다만 미드저니의 경우 이전 버전에서는 텍스트를 전혀 구현하지 못했는데, 이 정도면 굉장히 놀라운 발전입니다.
인물 사진 구현 능력
마지막으로 근거리, 원거리에서 촬영한 인물 사진을 비교해 보겠습니다.
5. 인물 사진 (클로즈업)
미드저니는 이전 버전에서도 인물 사진을 구현하는 성능이 뛰어났었습니다. V6 모델로 생성한 이미지는 AI 이미지인 것을 알고 봐도 AI 이미지 인지 의심이 들 정도로 성능이 더욱 업그레이드되었습니다.
인물 표현은 제가 생각하는 달리3의 최대 약점입니다. 얼핏 보면 모를 수도 있지만 자세히 보면 AI 이미지라는 것이 확연하게 티가 납니다.
6. 인물 사진 (원거리)
현존하는 대부분의 AI 이미지 제너레이터는 원거리 샷에서 인간의 신체 부위(눈썹, 눈동자, 손가락, 치아 등)를 정확하게 구현하지 못합니다.
미드저니 V6에서도 여전히 이 문제는 해결되지 않은 것으로 보입니다. 아래 이미지의 경우 사람의 손이 기괴하게 표현되었으며, 눈과 입 모양이 부자연스럽습니다.
다만 미드저니는 이미지의 특정 부분을 AI로 재생성하는 인페인팅 기능(Vary Region)을 제공하므로, 어느 정도 보완이 가능합니다.
달리3 역시 원거리 샷에서의 신체 부위 표현을 잘 못합니다. 아래 이미지의 경우 손가락 개수가 이상한 사람이 있으며, 눈동자도 대부분 부자연스럽습니다.
미드저니 V6 사용 후기
저는 달리3를 현존 최고의 AI 이미지 생성 모델로 평가하고, AI 이미지 생성 분야 입문자에게 강력히 추천해왔습니다.
미드저니는 미드저니만의 감성이 담긴 쨍~한 느낌의 예쁜 실사 이미지를 만들 수 있는 것과 다양한 명령어를 사용할 수 있는 것 외에는 대부분의 영역에서 달리3가 더욱 나은 모습을 보여줬기 때문입니다.
다만 금일 이후로는, 미드저니를 달리3와 차별화된 강점이 있는 AI 이미지 생성 모델로 달리3와 함께 소개하려고 합니다.
복잡한 명령어를 달리3 만큼 정확하게 구현하지 못하는 부분은 아쉬웠지만, 이전 버전 대비해서는 훨씬 더 잘 구현된다는 것이 체감되었습니다.
또한, 실사에서 달리3 대비 압도적인 성능을 보여줬고, 텍스트 렌더링도 가능해졌으며, 인페인팅 기능도 제공하기 때문에 달리3와는 또 다른 장점을 가진 툴로써 활용 가치가 있어 보입니다.
특히 이번 테스트를 진행해 보며, 챗GPT에서는 수시로 사용 제한이 걸리고, 이미지도 한 번에 두 개 밖에 생성되지 않는 반면, 미드저니에서는 거의 제한 없이 이미지를 생성할 수 있는 부분에서 편리함을 느꼈습니다.
미드저니가 자사 웹페이지에서 이미지 생성 서비스를 정식으로 시작하면, 미드저니의 사용자는 점점 더 많아질 것으로 보입니다.
이번 포스팅에서 자주 언급된 달리3 모델을 사용해 보고 싶으신 독자분께서는 아래 포스팅을 참조 부탁드립니다.
이해하기 쉬운 설명과 시연에 감사드립니다.