일반인은 구분하기 어려울 만큼 정교해진 챗GPT ‘이미지 2.0’

챗GPT ‘이미지 2.0’으로 만든 영화 포스터들. 챗GPT 생성 이미지

“육안으로 봐서는 확실히 구분하기 어렵다. 자간이 어색한 부분은 있지만, 쉽게 가려내기 힘들 것 같다. 직업적 자존심이 걸린 문제라 생성형 인공지능(AI)이 만든 사진을 단번에 찾고 싶은데, 셋 다 그럴듯하게 만들었다.”

챗GPT로 만든 가상의 영화 포스터와 사람이 만든 포스터를 비교해본 편집 디자이너 이모 씨의 소감이다. 오픈AI가 이미지 생성 도구의 새 버전인 챗GPT ‘이미지 2.0’을 4월 22일 출시했다. 정식 공개 전부터 이용자 사이에서 ‘덕트 테이프’라는 이름으로 불리며 성능에 대한 호평이 이어지던 모델이다. 지난해 말 오픈AI는 구글 제미나이의 월등한 이미지 생성 능력을 보고 사내 위기 경보인 ‘코드레드(code red)’를 발령하기도 했다. 오픈AI는 이번 모델이 단순 이미지 생성 수준을 넘어 광고, 교육 자료 제작 등에도 활용할 수 있는 단계까지 기능이 개선됐다고 강조했다.

잠실 롯데월드타워도 그대로 구현

이번 모델에서 주목되는 점은 이미지를 실제 사진처럼 정교하게 구현한다는 것이다. 그간 생성형 AI의 약점으로 지적되던 AI 특유의 어색함이 크게 줄었다. 챗GPT의 이미지 생성 능력을 확인하고자 기자가 직접 찍은 사진을 참고 자료로 제공하고, 비슷한 콘셉트의 이미지를 생성해달라고 요청했다. 그러자 기자가 찍은 서울 종로구 낙산공원 야경의 구도와 유사한 이미지가 만들어졌다. 가로등의 빛 번짐과 주택 앞에 주차된 차 등 세부 요소까지 실제 주택가와 닮아 있었다.

기자가 직접 찍은 서울 종로구 낙산공원 야경 사진(왼쪽)과 이를 바탕으로 챗GPT가 생성한 이미지. 윤채원 제공·챗GPT 생성 이미지

한강을 배경으로 찍은 사진도 비슷하게 구현했다. 아직 듬성듬성 만개하지 않은 벚꽃을 넣었고, 뒤편에는 잠실 롯데월드타워도 흐릿하게 표현됐다. AI 생성 이미지와 실제 사진을 구분해보라고 하자, 일반인은 쉽게 답하지 못했다. 직장인 박모 씨는 “예전에는 어딘가 어색한 사진을 AI 이미지로 골랐는데, 지금은 구도나 색감 등이 오히려 완벽하지 않은 사진을 실제 사진으로 고르게 된다”고 말했다.

텍스트 구현 능력 향상도 눈에 띈다. 기존 모델은 복잡한 텍스트가 포함된 이미지를 생성하면 글자가 깨지는 등 정확성이 떨어졌고, 한국어와 일본어 등 비영어권 텍스트에선 오류가 잦았다. 오픈AI는 이번 모델에선 다국어 이해를 높여 텍스트 렌더링(이미지 합성) 성능을 크게 개선했다고 강조했다.

영화 포스터도 챗GPT가 뛰어나

이번엔 제미나이와 챗GPT의 이미지 생성 능력 및 텍스트 구현 성능을 비교해봤다. 한국 고교생을 주인공으로 한 청춘 독립영화 포스터를 각각 요청했다. 제미나이가 만든 포스터는 교복을 입은 남학생 2명이 학교 옥상 난간에 앉아 운동장을 내려다보는 장면을 담았다. 포스터에 쓰인 사진은 실제 촬영한 것처럼 자연스러웠다. 문제는 포스터 하단이다. 감독·출연·각본 등 제작진 크레디트가 굵은 고딕체로 미색 여백 위에 일렬로 나열됐다. 이미지 위에 자연스럽게 얹히지 못하고 별도의 영역으로 분리돼 보였다.

챗GPT가 생성한 포스터는 해 질 녘 어둑한 강변을 배경으로 했다. 챗GPT가 생성한 제목 ‘태양은 우리를 모른다’와 전체 색감이 청회색 톤으로 자연스럽게 어우러졌다. 제미나이가 제대로 표시하지 못했던 하단 개봉일과 크레디트도 이미지 위에 작게 배치돼 실제 영화 포스터와 비슷해 보였다. 챗GPT가 만든 포스터와 실제 영화 포스터를 나란히 놓고 구분하도록 했을 때 일반인은 쉽게 차이를 짚어내지 못했다. 직장인 송모 씨는 “거리 간판과 사람 비율이 맞지 않아 원근이 어색한 포스터는 AI로 보이지만, 나머지는 충분히 그럴듯하다”고 말했다.

전문가 시선에선 어떨까. 그래픽 디자인을 전공하고 디지털 일러스트로 동화를 그리는 신우주 씨는 “프롬프트를 디테일하게 설명하지 않고 만든 결과물로 보인다”고 짚어냈다. 이어 “사람 시선은 보통 위에서 아래 또는 좌에서 우로 흐르는데, AI는 좌우에 텍스트를 동시에 배치하는 등 기본적인 시선 흐름을 고려하지 않았다”고 지적했다.

이미지 생성 도구는 향후 생성형 AI 기업의 핵심 사업으로 자리 잡을 가능성이 크다. 오픈AI 역시 동영상 생성 도구 ‘소라(Sora)’를 접고 이미지 생성 기능에 몰두했다. 오픈AI 관계자는 “챗GPT에서 이미지 생성은 궁극적으로 개인 비서를 구현하는 핵심 요소였지만, 동영상 수요는 그 정도는 아니었다”고 설명했다. 오픈AI는 챗GPT 이미지 2.0을 무료 이용자를 포함한 모든 계정에서 쓸 수 있도록 공개하고, 사고·프로 모델은 월 20∼200달러(약 3만~30만 원) 요금제 이용자에게만 제공할 예정이다.