오픈AI가 새로운 인공지능(AI) 플랫폼 ‘소라(Sora)’를 공개했다. 소라는 원하는 문장을 이미지로 만드는 ‘달리’ ‘미드저니’ 같은 AI 이미지 생성기에서 한 발 더 나아가, 원하는 문장을 동영상으로 제작해주는 AI 비디오 생성기다. 소라는 아직 출시 전이지만 지금까지 공개된 샘플 동영상의 높은 품질은 흥분과 우려를 동시에 불러일으키고 있다. 과연 구글, 메타를 제치고 인스턴트 비디오 시장에서 살아남을 수 있을까.
소라는 최대 1분 길이의 고화질 동영상을 생성한다. 이미 많은 사람이 텍스트용 챗GPT, 구글 제미나이, 이미지용 달리나 미드저니 같은 생성형 AI에 익숙해졌다. 이 프로그램들을 사용할 때와 마찬가지로 소라 역시 프롬프트에 간단한 텍스트 설명을 넣으면 원하는 작업물을 얻을 수 있다. 오픈AI가 공개한 샘플 중에는 ‘눈 덮인 초원을 달려오는 거대한 매머드들’ ‘벚꽃이 핀 길을 걷는 커플’ 같은 텍스트 프롬프트를 입력해 생성한 동영상들이 있다. 이들 동영상은 영상에 포함돼야 하는 요소부터 스토리, 표현 스타일까지 원하는 내용을 매우 구체적으로 지정해 얻은 결과물이다. 예를 들어 “스타일리시한 여성이 네온사인으로 가득한 도쿄 거리를 걷고 있다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 착용하고 검은색 백을 들고 있다”는 식으로 구체적인 요구사항을 모두 반영해 동영상을 만든다. 생성된 결과물을 보면 동영상의 높은 품질, 질감, 장면의 역동성과 일관성, 카메라 움직임 등 AI가 생성해낸 결과물인지 구분하기가 어렵다. 마치 영화나 다큐멘터리 클립처럼 매우 사실적으로 보인다는 평가를 받는다. 또한 픽사 애니메이션처럼 새로운 3D(3차원) 캐릭터를 창조할 수도 있다.
소라가 이처럼 고품질 동영상을 만들 수 있는 이유는 챗GPT부터 이어져온 언어 기반 모델의 AI 기술이 적용됐기 때문이다. 오픈AI는 “소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성할 수 있다”며 “이것이 가능한 이유는 ‘언어에 대한 깊은 이해’에 기반을 두고 텍스트 프롬프트를 정확히 해석할 수 있기 때문”이라고 설명한다.
소라는 정교한 화면을 구성하고자 확산 변환기(Transformers) 모델의 텍스트 및 이미지 생성 도구를 사용한다. 이 모델은 동영상을 생성할 때 무작위 노이즈에서 시작해 입력 프롬프트에 맞는 선명한 이미지를 얻을 때까지 수정 작업을 반복하는 방식으로 작동한다. 연속된 영상에서 프레임 간 일관성을 유지하기 위해 시각적 패치(조각) 기술도 도입했다. 예를 들어 화면에 고양이가 등장하다가 갑자기 사라지는 문제가 발생하지 않도록 피사체 흐름을 유지하는 기술이다. 소라는 시각적 데이터 모델을 더욱 효과적으로 표현하고자 동영상을 압축한 뒤 다시 3D 데이터 조각으로 변환한다. 이렇게 하면 프레임 단위로 동영상을 합치는 게 아니라, 전체 동영상을 한 번에 생성하기 때문에 동영상을 더욱 일관되게 유지할 수 있다.
오픈AI는 홈페이지에 공개한 기술 보고서를 통해 소라는 프롬프트에서 사용자가 요청한 내용뿐 아니라, 그것들이 실제 세계에 어떻게 존재하는지 이해하고 있다고 밝혔다. 이 보고서는 소라에 대해 “실제 세계를 이해하고 시뮬레이션할 수 있는 ‘세계 시뮬레이터’”라며 “일반 인공지능(AGI) 달성에 중요한 이정표가 될 것”이라고 설명한다. 물리적 세계와 디지털 세계, 그리고 그 안에 사는 사물·동물·사람을 가상으로 재현할 수 있는 스마트한 시뮬레이터라는 것이다. 이는 소라의 활용 범위를 훨씬 넓히는 개념이다. 쉽게 예상할 수 있는 소라의 활용도는 SNS(소셜네트워크서비스)나 광고, 교육, 영화 등에 필요한 동영상 제작이다. 고품질 영상 AI 플랫폼이 할리우드의 영화 제작 방식을 바꾸고, 비디오 아티스트의 작업을 대체할 것이라는 예측이 나온다. 더 나아가 생성형 AI를 통해 물리적·화학적·사회적 실험을 시뮬레이션하는 응용도 기대할 수 있다. 예를 들어 AI 생성기를 통해 우주의 물리적 반응을 좀 더 쉽게 테스트해보는 식이다. 개발자들은 아직 완벽한 수준의 시뮬레이션을 달성하기는 어렵지만, 세계를 대략적으로 시뮬레이션하고 현실적인 비디오를 만드는 것이 수년 내 가능하리라 내다보고 있다.
물론 소라도 아직까지 완벽하지는 않다. 복잡한 장면의 물리학을 정확히 시뮬레이션하는 데 어려움을 겪을 수 있고, 자발적인 객체 생성과 상호작용 시 인과관계를 이해하지 못할 수도 있다. 예를 들어 사람이 쿠키를 먹는 영상에서 쿠키 크기가 줄어들지 않을 수 있는 것이다. 또한 왼쪽과 오른쪽을 혼합하는 등 프롬프트의 공간적 세부 사항을 혼동하기도 한다. 이러한 소라의 한계점은 오픈AI 측도 인정한 부분이다.
빌 피블스 오픈AI 연구원은 미국 ‘뉴욕타임스’를 통해 “해당 클립의 여러 단계에서 이상한 움직임을 발견할 수 있다”며 “그러나 소라가 이 정도로 복잡한 장면을 모델링할 수 있다는 사실은 비디오 생성 기능이 확실히 향상됐음을 보여준다”고 설명했다.
영국 비즈니스 컨설턴트이자 기술 트렌드 작가인 버나드 마르는 ‘컴퓨터월드’를 통해 “텍스트-비디오 기능은 몰입형 학습 자료를 만들거나 마케팅, 엔터테인먼트 분야에 필요한 매력적인 콘텐츠를 신속하게 생성한다는 엄청난 잠재력을 지닌다”며 “반면 텍스트 설명을 비디오로 변환하는 AI 모델의 능력은 엄격한 윤리적 고려와 오용 방지 조치의 필요성을 강조한다”고 경고했다.
오픈AI는 이에 대응해 잘못된 정보, 혐오스럽거나 편견을 불러일으키는 영상·음란물 등을 탐지하는 도구를 개발하고 이와 관련된 안전 조치를 취하고 있다고 밝혔다. 또한 소라에서 생성된 동영상을 좀 더 쉽게 감지할 수 있도록 그 결과물에 메타데이터를 포함하는 도구도 개발하고 있다. 최신 버전인 달리3의 경우 생성된 이미지에 AI를 사용해 만들었다는 증명으로 ‘C2PA’(콘텐츠 출처 및 진위 확인을 위한 연합) 메타데이터가 추가된다. 이는 실제 정보와 허위 정보를 구분할 중요한 증표가 되지만, 또한 쉽게 삭제할 수 있다는 단점이 있다. 단지 사용자가 디지털 정보의 신뢰성을 높이는 신호라는 점을 인식하도록 장려하는 역할을 한다고 볼 수 있다.
오픈AI 측은 “AI 모델을 대상으로 광범위한 연구와 테스트를 진행하고 있지만 신기술을 남용하는 방식이나 유익하게 활용하는 사례를 모두 예측할 수는 없다”며 “실제 사용을 통해 학습해가며 다양한 사례를 보완하는 것이 시간이 갈수록 점점 더 안전한 AI 시스템을 만들고 출시하는 데 중요한 구성 요소가 될 것”이라고 설명했다.
언어 이해력 바탕으로 영상 제작
도시를 걷는 여성을 표현한 오픈AI ‘소라’의 샘플 동영상. [오픈AI 제공]
소라가 이처럼 고품질 동영상을 만들 수 있는 이유는 챗GPT부터 이어져온 언어 기반 모델의 AI 기술이 적용됐기 때문이다. 오픈AI는 “소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성할 수 있다”며 “이것이 가능한 이유는 ‘언어에 대한 깊은 이해’에 기반을 두고 텍스트 프롬프트를 정확히 해석할 수 있기 때문”이라고 설명한다.
소라는 디즈니 애니메이션 못지않은 캐릭터도 만들어낸다. [오픈AI 제공]
소라는 시각적 패치(조각) 기술로 일관된 영상을 만든다. [오픈AI 제공]
구글 루미에르 능가하는 소라
동영상 AI 생성기 시장에서 소라가 최초 모델은 아니다. 최근 비디오 생성 기술이 놀라운 속도로 발전하면서 인상적인 텍스트-비디오 모델이 출시되고 있다. 메타의 에뮤(Emu), 런웨이의 젠-2(Gen-2), 스테빌리티 AI의 스테이블 비디오 디퓨전(Stable Video Diffusion), 가장 최근에는 구글의 루미에르(Lumiere)가 있다. 런웨이의 젠-2는 유료 서비스를 제공하지만, 동영상 결과물에 물리학적 오류가 종종 나타나 그다지 안정적이지 못하다는 평이다. 동영상 분량도 10여 초에 불과하다. 구글과 메타는 이 분야의 주요 경쟁자 중 하나다. 1월초 출시된 루미에르는 스테이블 비디오 디퓨전 같은 경쟁 업체의 초당 25프레임에 비해 초당 80프레임을 제공한다. 그러나 루미에르는 소라에 비해 전체적으로 부족한 성능을 나타낸다. 루미에르는 512×512픽셀 해상도의 비디오를 제작하는 데 반해, 소라는 1920×1080픽셀 또는 HD 품질의 해상도까지 구현할 수 있다. 루미에르는 동영상 길이도 약 5초로 제한된다. 또한 루미에르는 사진 여러 장으로 구성된 동영상을 만들 수 없지만 소라는 가능하다. 소라는 다른 모델과 마찬가지로 이미지나 영상을 활용해 동영상을 제작하고, 다양하게 결합 또는 확장하는 등 영상 편집 작업도 가능한 것으로 알려졌다.물론 소라도 아직까지 완벽하지는 않다. 복잡한 장면의 물리학을 정확히 시뮬레이션하는 데 어려움을 겪을 수 있고, 자발적인 객체 생성과 상호작용 시 인과관계를 이해하지 못할 수도 있다. 예를 들어 사람이 쿠키를 먹는 영상에서 쿠키 크기가 줄어들지 않을 수 있는 것이다. 또한 왼쪽과 오른쪽을 혼합하는 등 프롬프트의 공간적 세부 사항을 혼동하기도 한다. 이러한 소라의 한계점은 오픈AI 측도 인정한 부분이다.
빌 피블스 오픈AI 연구원은 미국 ‘뉴욕타임스’를 통해 “해당 클립의 여러 단계에서 이상한 움직임을 발견할 수 있다”며 “그러나 소라가 이 정도로 복잡한 장면을 모델링할 수 있다는 사실은 비디오 생성 기능이 확실히 향상됐음을 보여준다”고 설명했다.
영국 비즈니스 컨설턴트이자 기술 트렌드 작가인 버나드 마르는 ‘컴퓨터월드’를 통해 “텍스트-비디오 기능은 몰입형 학습 자료를 만들거나 마케팅, 엔터테인먼트 분야에 필요한 매력적인 콘텐츠를 신속하게 생성한다는 엄청난 잠재력을 지닌다”며 “반면 텍스트 설명을 비디오로 변환하는 AI 모델의 능력은 엄격한 윤리적 고려와 오용 방지 조치의 필요성을 강조한다”고 경고했다.
가짜 영상 배포 우려도 나와
현재 소라는 대중에게 공개되기에 앞서 전문가와 연구원으로 구성된 ‘레드 팀’이 먼저 테스트를 진행하고 있다. 우리가 사용하기까지는 시일이 좀 더 걸릴 것으로 보인다. 미국에서는 AI 행정명령에 따라 AI 모델을 출시하기 전 안전 점검 결과를 제출하는 게 의무다. 텍스트를 비디오로 변환하는 도구의 등장으로 사실처럼 보이는 가짜 영상을 더욱 쉽게 만들 수 있는 잠재력에 대한 우려도 커지는 상황이다. AI가 발전할수록 딥페이크를 활용한 가짜뉴스나 음란물 등이 더욱 쉽게 배포될 수 있기 때문이다. AI 생성기가 저작권 있는 작품을 도용하는 것 또한 계속해서 지적돼온 문제다.오픈AI는 이에 대응해 잘못된 정보, 혐오스럽거나 편견을 불러일으키는 영상·음란물 등을 탐지하는 도구를 개발하고 이와 관련된 안전 조치를 취하고 있다고 밝혔다. 또한 소라에서 생성된 동영상을 좀 더 쉽게 감지할 수 있도록 그 결과물에 메타데이터를 포함하는 도구도 개발하고 있다. 최신 버전인 달리3의 경우 생성된 이미지에 AI를 사용해 만들었다는 증명으로 ‘C2PA’(콘텐츠 출처 및 진위 확인을 위한 연합) 메타데이터가 추가된다. 이는 실제 정보와 허위 정보를 구분할 중요한 증표가 되지만, 또한 쉽게 삭제할 수 있다는 단점이 있다. 단지 사용자가 디지털 정보의 신뢰성을 높이는 신호라는 점을 인식하도록 장려하는 역할을 한다고 볼 수 있다.
오픈AI 측은 “AI 모델을 대상으로 광범위한 연구와 테스트를 진행하고 있지만 신기술을 남용하는 방식이나 유익하게 활용하는 사례를 모두 예측할 수는 없다”며 “실제 사용을 통해 학습해가며 다양한 사례를 보완하는 것이 시간이 갈수록 점점 더 안전한 AI 시스템을 만들고 출시하는 데 중요한 구성 요소가 될 것”이라고 설명했다.
*유튜브와 포털에서 각각 ‘매거진동아’와 ‘투벤저스’를 검색해 팔로잉하시면 기사 외에도 동영상 등 다채로운 투자 정보를 만나보실 수 있습니다.