휴멜로, 감정과 억양 가진 기계음으로 오디오시장 개척한다

이자룡 휴멜로 대표

‘TTS(Text To Speech).’ 인터넷 개인방송을 본 적 있는 사람이라면 한 번쯤 들어봤을 단어다. 문자를 읽어주는 프로그램으로, 인터넷 개인방송의 후원 메시지를 읽어주는 식으로 쓰인다. 과거 인터넷 방송 시청자가 방송인에게 말을 걸 수 있는 방법은 채팅방에 글을 적는 것뿐이었지만, 최근에는 TTS를 통해 기계가 만든 목소리로 말을 걸 수 있다.

인터넷 방송을 본 적 없더라도 실생활 여기저기서 TTS를 접할 수 있다. 아파트 안내방송부터 지하철 안내방송까지 목소리가 쓰이는 다양한 분야에 TTS가 녹아들어 있다. 휴멜로는 이 TTS를 개발하는 회사다. 하지만 지금까지 TTS와 다른 점이 있다. 그동안 TTS는 한계가 있었다. 사람이 읽는 것과 달리 감정과 억양이 없었다. 하지만 휴멜로는 딥러닝을 사용, 이를 극복해냈다. 이외에도 목소리를 통해 다양한 콘텐츠를 만들 수 있도록 종합 음성 콘텐츠 개발 프로그램을 내놓았다. 이자룡 휴멜로 대표를 5월 20일 서울 강남구 휴멜로 사무실에서 만났다. 아래는 이 대표와 나눈 일문일답.

연기가 가능한 TTS

이자룡 휴멜로 대표

-지금까지 TTS가 듣기에 좀 어색할 뿐, 불편한 점은 별로 없었던 것 같다. 시장에서는 자연스러운 TTS에 대한 수요가 있나.

“오디오북, 게임 등 목소리를 사용하는 콘텐츠시장에서는 수요가 크다. 성우 목소리를 써도 되지만, 시간과 비용 측면에서 TTS가 유리하다. 일례로 아무리 뛰어난 성우라도 10시간을 연속해 녹음할 수는 없다. 하지만 TTS는 시간에 구애받지 않고 목소리를 만들 수 있다. 그 동안 이 같은 분야에 TTS를 사용하지 못한 이유는 특유의 어색함 때문이었는데, 딥러닝으로 이를 극복했다.”

-정확히 어떤 부분이 어색한지 설명해줄 수 있나.

“두 문장 이상을 TTS를 통해 들어보면 바로 알 수 있다. 최근 기술로는 한 문장은 자연스레 읽을 수 있지만, 문장과 문장 간 연결 부분이 부자연스럽다. 특히 문장이 끝나자마자 다음 발음이 들어오는 경우가 많다. 이 때문에 한 문장, 한 문장 따로 음성 데이터를 만든 후 이를 편집하는 방식으로 사용해야 했다. 결국 불편함이 크고, 성우 녹음에 비해 시간이 더 드니 TTS가 목소리 콘텐츠시장에서 쉽게 쓰이지 못했다. 게다가 목소리에 감정을 실을 수도 없다. 게임이나 오디오북에서는 다양한 감정이 목소리를 통해 드러나야 하는데, 현재 주로 쓰이는 프로그램에서는 잘해야 슬픔, 기쁨, 중립 정도의 표현만 가능하다.”

-휴멜로는 이 같은 한계를 극복한 것인가.

“현재 중립, 기쁨, 차분, 화남, 슬픔, 실망, 흥분, 졸림 등 8가지 감정을 표현할 수 있다. 문장 간 전환도 자연스럽다. 한 문장이 아니라 한 문단, A4 한 쪽의 글도 자연스럽게 읽는 것이 가능하다. 최근 국내 콘텐츠의 경우 영상은 넷플릭스, 게임은 스팀 등을 통해 해외로 쉽게 수출할 수 있다. 유일한 장벽이 언어인데, 미국 등 영어 생활권 사람들은 자막을 불편해한다. 국내 콘텐츠가 북미시장에 진출하려면 더빙을 해야 한다. 하지만 성우 기용 등 비용이 너무 많이 들어 작은 업체는 엄두를 내지 못하곤 한다. 하지만 TTS를 사용한다면 콘텐츠 제작사들이 비교적 쉽게 해외 진출을 고려할 수 있다.”

목소리 저작권

이자룡 휴멜로 대표

-콘텐츠 개발 이외에 다른 분야에도 적용이 가능할 것 같다.

“AI(인공지능) 비서 등 음성 챗봇(인간과 대화를 통해 특정 작업을 수행하도록 만들어진 프로그램)을 한층 더 발전시킬 수 있다. 시리, 빅스비 등 지금의 AI 비서는 질문이 지정돼 있고 답과 억양도 정해져 있다. 하지만 음성 인식 시스템과 발맞춰 음성 출력 시스템까지 갖춘다면 훨씬 자연스럽게 사람과 이야기하는 AI 비서를 만들 수 있다. 최종적으로는 영화 ‘그녀(Her)’에서처럼 사람 마음에 공감하고 교감하는 AI도 만들어낼 수 있다”

-게임 개발사나 콘텐츠 제작사는 연기하는 TTS를 반기겠지만, 성우들은 밥그릇을 빼앗긴다고 생각할 수도 있을 것 같다.

“오히려 새로운 기회가 열리는 것이라고 볼 수 있다. 최근 유명인의 목소리를 녹음해 이와 유사하게 만든 TTS가 유행이다. 이를 만들려면 꽤 긴 기간 녹음을 거쳐야 한다. 목소리는 물론이고 억양까지 따 와야 하니 시간이 오래 걸린다. 휴멜로는 이 기간을 단축해 한 문장을 읽는 소리만 녹음해도 TTS를 만들 수 있다. 이렇게 만들어진 TTS는 자체 플랫폼에 올려 판매할 예정이다. 이 판매 수익의 일부가 처음 목소리를 녹음한 사람에게 돌아간다. 즉 성우가 직접 TTS를 만들어 수익을 창출할 수 있다는 의미다.”

-한 번만 녹음해 만든 TTS와 여러 번 녹음해 만든 TTS의 질적 차이는 없나.

“물론 있다. 성대모사도 단순히 한 문장을 따라 하는 것보다, 여러 문장을 통해 억양을 만드는 것이 더 중요하지 않나. TTS도 마찬가지다. 다만 휴멜로의 프로그램은 한 번에도 꽤 비슷한 목소리를 만들 수 있어 다른 TTS에 비해 녹음 시간이 짧고 유사성과 확장성은 더 높은 편이다.”

-TTS를 쉽게 만든다 해도 이를 자유롭게 편집하는 등 사용에는 제한이 있지 않나.

“프로소디(prosody)라는 음성 편집 프로그램을 개발해 내놨다(현재 휴멜로 홈페이지에서 체험판을 다운로드할 수 있다). 이 프로그램을 통해 TTS를 사용할 수 있고 편집도 가능하다. 감정을 입히거나 목소리를 바꿀 수 있고, 말하는 속도와 음 높낮이 조절은 물론 간단한 영상 편집까지 할 수 있다. 최종적으로는 TTS 개발자들이 아니라, 사운드 엔지니어나 콘텐츠 제작사가 손쉽게 쓰는 프로그램으로 발전시킬 예정이다. 어도비의 이미지, 영상 편집 프로그램도 개발자보다 디자이너들이 더 많이 사용하지 않나. 이처럼 누구나 쉽게 음성 편집 및 개발을 할 수 있는 프로그램이 될 것이다.”

사이버가수 탄생

-개인적인 질문을 해보겠다. 어쩌다 TTS에 관심을 갖게 됐나.

“KAIST(한국과학기술원) 학부 및 석사 시절 AI와 딥러닝을 공부했고, 취미로 음악 관련 활동을 해왔다. 이를 접목해 작곡 AI를 개발, 사업을 시작했다. 머신러닝 AI를 이용해 작곡을 돕는 프로그램이었다. 엔터테인먼트업계에서 해당 프로그램에 관심을 보였다. 지금은 SM엔터테인먼트 관계사인 CTGA와 함께 프로젝트를 진행하고 있다. 이 경험을 바탕으로 개발 방식이 비슷한 TTS AI 개발에 도전하게 됐다.”

-그렇다면 추후에는 TTS와 프로소디를 이용해 가상 가수를 만들 수 있겠다.

“과거 사이버가수 아담은 목소리를 전담하는 사람이 있었지만, 머신러닝 작곡 AI와 TTS를 이용한다면 세상에 없는 목소리의 가상가수를 만들 수 있다. 실제로 엔터테인먼트업계에서 관심을 보이고 있다. 편집 프로그램이 있으니 전문가가 아니어도 일본의 유명한 보컬로이드(야마하가 제작한 데스크톱 뮤직 제작을 위한 음성 합성 엔진)처럼 한국에서도 가상가수를 만들어내고 이 목소리를 오픈소스로 공유할 수 있다.”