언어 이해력 바탕으로 영상 제작
도시를 걷는 여성을 표현한 오픈AI ‘소라’의 샘플 동영상. [오픈AI 제공]
소라가 이처럼 고품질 동영상을 만들 수 있는 이유는 챗GPT부터 이어져온 언어 기반 모델의 AI 기술이 적용됐기 때문이다. 오픈AI는 “소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성할 수 있다”며 “이것이 가능한 이유는 ‘언어에 대한 깊은 이해’에 기반을 두고 텍스트 프롬프트를 정확히 해석할 수 있기 때문”이라고 설명한다.
소라는 디즈니 애니메이션 못지않은 캐릭터도 만들어낸다. [오픈AI 제공]
소라는 시각적 패치(조각) 기술로 일관된 영상을 만든다. [오픈AI 제공]
구글 루미에르 능가하는 소라
동영상 AI 생성기 시장에서 소라가 최초 모델은 아니다. 최근 비디오 생성 기술이 놀라운 속도로 발전하면서 인상적인 텍스트-비디오 모델이 출시되고 있다. 메타의 에뮤(Emu), 런웨이의 젠-2(Gen-2), 스테빌리티 AI의 스테이블 비디오 디퓨전(Stable Video Diffusion), 가장 최근에는 구글의 루미에르(Lumiere)가 있다. 런웨이의 젠-2는 유료 서비스를 제공하지만, 동영상 결과물에 물리학적 오류가 종종 나타나 그다지 안정적이지 못하다는 평이다. 동영상 분량도 10여 초에 불과하다. 구글과 메타는 이 분야의 주요 경쟁자 중 하나다. 1월초 출시된 루미에르는 스테이블 비디오 디퓨전 같은 경쟁 업체의 초당 25프레임에 비해 초당 80프레임을 제공한다. 그러나 루미에르는 소라에 비해 전체적으로 부족한 성능을 나타낸다. 루미에르는 512×512픽셀 해상도의 비디오를 제작하는 데 반해, 소라는 1920×1080픽셀 또는 HD 품질의 해상도까지 구현할 수 있다. 루미에르는 동영상 길이도 약 5초로 제한된다. 또한 루미에르는 사진 여러 장으로 구성된 동영상을 만들 수 없지만 소라는 가능하다. 소라는 다른 모델과 마찬가지로 이미지나 영상을 활용해 동영상을 제작하고, 다양하게 결합 또는 확장하는 등 영상 편집 작업도 가능한 것으로 알려졌다.물론 소라도 아직까지 완벽하지는 않다. 복잡한 장면의 물리학을 정확히 시뮬레이션하는 데 어려움을 겪을 수 있고, 자발적인 객체 생성과 상호작용 시 인과관계를 이해하지 못할 수도 있다. 예를 들어 사람이 쿠키를 먹는 영상에서 쿠키 크기가 줄어들지 않을 수 있는 것이다. 또한 왼쪽과 오른쪽을 혼합하는 등 프롬프트의 공간적 세부 사항을 혼동하기도 한다. 이러한 소라의 한계점은 오픈AI 측도 인정한 부분이다.
빌 피블스 오픈AI 연구원은 미국 ‘뉴욕타임스’를 통해 “해당 클립의 여러 단계에서 이상한 움직임을 발견할 수 있다”며 “그러나 소라가 이 정도로 복잡한 장면을 모델링할 수 있다는 사실은 비디오 생성 기능이 확실히 향상됐음을 보여준다”고 설명했다.
영국 비즈니스 컨설턴트이자 기술 트렌드 작가인 버나드 마르는 ‘컴퓨터월드’를 통해 “텍스트-비디오 기능은 몰입형 학습 자료를 만들거나 마케팅, 엔터테인먼트 분야에 필요한 매력적인 콘텐츠를 신속하게 생성한다는 엄청난 잠재력을 지닌다”며 “반면 텍스트 설명을 비디오로 변환하는 AI 모델의 능력은 엄격한 윤리적 고려와 오용 방지 조치의 필요성을 강조한다”고 경고했다.
가짜 영상 배포 우려도 나와
현재 소라는 대중에게 공개되기에 앞서 전문가와 연구원으로 구성된 ‘레드 팀’이 먼저 테스트를 진행하고 있다. 우리가 사용하기까지는 시일이 좀 더 걸릴 것으로 보인다. 미국에서는 AI 행정명령에 따라 AI 모델을 출시하기 전 안전 점검 결과를 제출하는 게 의무다. 텍스트를 비디오로 변환하는 도구의 등장으로 사실처럼 보이는 가짜 영상을 더욱 쉽게 만들 수 있는 잠재력에 대한 우려도 커지는 상황이다. AI가 발전할수록 딥페이크를 활용한 가짜뉴스나 음란물 등이 더욱 쉽게 배포될 수 있기 때문이다. AI 생성기가 저작권 있는 작품을 도용하는 것 또한 계속해서 지적돼온 문제다.오픈AI는 이에 대응해 잘못된 정보, 혐오스럽거나 편견을 불러일으키는 영상·음란물 등을 탐지하는 도구를 개발하고 이와 관련된 안전 조치를 취하고 있다고 밝혔다. 또한 소라에서 생성된 동영상을 좀 더 쉽게 감지할 수 있도록 그 결과물에 메타데이터를 포함하는 도구도 개발하고 있다. 최신 버전인 달리3의 경우 생성된 이미지에 AI를 사용해 만들었다는 증명으로 ‘C2PA’(콘텐츠 출처 및 진위 확인을 위한 연합) 메타데이터가 추가된다. 이는 실제 정보와 허위 정보를 구분할 중요한 증표가 되지만, 또한 쉽게 삭제할 수 있다는 단점이 있다. 단지 사용자가 디지털 정보의 신뢰성을 높이는 신호라는 점을 인식하도록 장려하는 역할을 한다고 볼 수 있다.
오픈AI 측은 “AI 모델을 대상으로 광범위한 연구와 테스트를 진행하고 있지만 신기술을 남용하는 방식이나 유익하게 활용하는 사례를 모두 예측할 수는 없다”며 “실제 사용을 통해 학습해가며 다양한 사례를 보완하는 것이 시간이 갈수록 점점 더 안전한 AI 시스템을 만들고 출시하는 데 중요한 구성 요소가 될 것”이라고 설명했다.