Sora란 무엇인가? OpenAI의 text-to-video 모델 소라 사용법 출시일

OpenAI에서 text-to-video 모델 Sora를 공개했습니다. text-to-video는 사용자가 입력한 텍스트 명령어에 해당되는 영상을 생성하는 AI 기술을 의미합니다.

Sora는 최대 1분 길이의 영상을 생성할 수 있는 모델입니다.

text-to-video 분야의 기존 최강자인 피카랩스의 PIKA, 런웨이의 Gen2가 한 번에 최대 4초 길이의 영상을 만드는 것과 비교하면, OpenAI가 이 분야의 판도를 완전히 바꿀 수 있는 게임 체인저를 출시한 상황입니다.

OpenAI 홈페이지에 따르면, Sora는 다양한 캐릭터, 특정 동작 유형, 그리고 피사체와 배경의 정확한 디테일을 포함한 복잡한 장면을 생성할 수 있다고 합니다.

또한, 사용자가 입력한 명령어 내 세부 요청 사항을 정확하게 이해할 뿐만 아니라, 이러한 내용이 실제 세계에서 어떻게 존재하는지 이해하고 영상을 생성한다고 합니다.

🛎️ 현재 OpenAI 내부 테스트 중인 모델로, 일반 유저에게는 아직 배포되지 않았습니다.

sora
Sora로 제작된 영상 캡쳐

Sora로 생성된 영상

OpenAI Sora 페이지에는 Sora로 생성한 다수의 영상이 공개되어 있으며, 해당 영상 생성에 사용된 프롬프트도 함께 공개되어 있습니다.

해당 페이지에 공개된 영상 중 가장 긴 영상은 1분이며, 다른 영상들은 40초, 20초, 8초 등 다양한 길이로 제작되어 있습니다.

공개된 모든 영상을 검토한 결과, 일부 부자연스러운 부분도 있었지만, 정식 출시 직후 text-to-video 분야의 리더로 등극할 수 있겠다는 생각이 들 정도로 퀄리티가 높았습니다.

지금부터 OpenAI가 공개한 영상 중 네 가지 영상을 함께 감상하겠습니다.

먼저 도쿄 거리를 걷고 있는 여성의 영상입니다.

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

다음은 도쿄 교외를 달리는 열차 창문에 비친 풍경입니다.

Reflections in the window of a train traveling through the Tokyo suburbs.

다음은 거대한 구름 인간이 지구를 향해 빛줄기를 쏘는 영상입니다.

A giant, towering cloud in the shape of a man looms over the earth. The cloud man shoots lighting bolts down to the earth.

마지막으로 이탈리아 부라노에 있는 달마시안 강아지의 영상입니다.

The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

Sora 사용법

Sora는 텍스트를 기반으로 이미지를 생성하는 기능 외에 이미지를 영상으로 변환하는 기능(image-to-video)과 영상을 기반으로 새로운 영상을 만드는 기능(video-to-video)도 제공합니다.

또한, 영상의 전후를 확장하거나 두 개의 영상을 통합하는 기능도 제공합니다.

지금부터 각 기능에 대한 샘플 영상을 함께 보겠습니다.

image-to-video

먼저 이미지를 기반으로 영상을 생성한 예시입니다. 이미지와 함께 명령어를 입력하면

sora
In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.

명령어 내 요청 사항이 반영된 영상으로 재탄생합니다.

video-to-video

다음으로 영상과 함께 명령어를 입력하면 명령어 내 요청 사항이 반영된 새로운 영상이 생성되는 예시입니다. 챗GPT에서 명령하듯이 손쉽게 명령할 수 있는 것으로 보입니다.

영상 확장 기능

최초 영상 생성 이후 영상의 전후를 확장하는 기능도 제공됩니다. 특히 시간을 거슬러 영상의 앞 부분을 확장하는 기능은 정말 놀랍습니다.

아래는 동일한 영상의 앞 부분을 확장한 세 개의 영상입니다. 영상의 시작 부분은 서로 다르지만, 모두 같은 결말로 끝나는 것을 알 수 있습니다.

영상 통합 기능

두 개의 영상을 통합하는 기능도 제공됩니다. 가운데 영상은 좌우 두 영상 내 요소가 모두 반영된 결과물입니다.

Sora 출시일 (미정)

Sora는 현재 OpenAI Red Team 멤버와 일부 비주얼 아티스트 및 디자이너에게만 테스트 목적으로 사용 권한이 부여된 상태로 공식 출시일은 아직 발표되지 않았습니다.

출시 일정 관련 예상
AI 이미지 관련 논란이 지속되는 가운데, Sora의 사실적인 AI 영상은 이미지보다 훨씬 더 큰 논란을 불러일으킬 가능성이 큽니다. 공식 런칭 전 발생할 수 있는 리스크에 대한 충분한 검토가 이뤄질 것으로 보입니다.

또한, 더욱 강력한 인프라 구축이 필요해 보입니다. 현재 OpenAI는 전 세계 챗GPT유저의 사용량을 완벽하게 감당하지 못하고 있습니다. 이러한 상황에서 영상 기능까지 제공하려면 훨씬 더 많은 서버와 GPU가 필요해 보입니다.

전반적인 상황을 고려했을 때, 공식 런칭까지 상당한 시간이 소요될 것으로 예상됩니다.

챗GPT의 기능 중 하나로 탑재되는 것이 아닌 별도 페이지에서 서비스가 제공될 가능성도 있어 보이며, 챗GPT에 탑재 되더라도 정말로 한 번에 1분 길이의 영상이 제공될 수 있을까?라는 의문도 듭니다.

지금까지 OpenAI의 text-to-video 모델 Sora에 대해 함께 알아보았습니다.

구글이 제미나이로 조금씩 주목받기 시작한 타이밍에 OpenAI가 모든 관심을 자신에게로 다시 돌리며 "넌 어차피 나한테 안돼"라는 메세지를 던진 것 같습니다.

OpenAI의 Sora 페이지에는 약 50개의 영상이 공개되어 있습니다. 영상 하나하나가 감탄스러울 정도로 퀄리티가 좋으니 꼭 한 번 방문해 보시기 바랍니다.

2 thoughts on “Sora란 무엇인가? OpenAI의 text-to-video 모델 소라 사용법 출시일”

Leave a Comment