세계적인 마술사 데이비드 카퍼필드가 등장하는 삼성전자 스마트TV 광고는 스마트기기가 사람의 말과 동작을 인식하는 마술 같은 일이 현실이 됐음을 상징적으로 보여준다.
1월 미국 라스베이거스에서 열린 2012 세계가전쇼(CES)에서도 이를 확인했다. 삼성전자, LG전자, 소니, 레노버 등 한·중·일 TV 제조사는 각종 인식 기술을 선보이고, 차세대 사용자 인터페이스(UI)의 미래를 보여줬다. 시연장은 늘 만원이었다. 시연장에서 TV에 얼굴을 비추면 트위터 같은 소셜네트워크서비스(SNS)가 곧바로 접속됐다. 소리로 TV를 켜는 것은 놀랍지도 않았다. 손으로 TV 화면의 아이콘을 이리저리 옮겨놓기까지 했다. 손으로 새를 움켜쥐고 던지는 동작으로 앵그리버드 게임을 진행하자 시연을 지켜보던 관객 사이에서 박수가 터져 나왔다.
아이폰4S ‘시리’가 포문
인식 기술 도입에서는 스마트폰이 스마트TV보다 앞섰다. 지난해 애플이 아이폰4S에 ‘시리’를 도입하면서 인식 기술의 포문을 연 것이 대표적이다. 시리는 사용자의 음성 명령을 인식해 원하는 기능을 실행한다. 대화형으로 풀어낸 것이 기존의 음성 인식 기능과 확연히 다르다. 예를 들어 시리에게 “난 친구를 만날 거야(I’ll meet my friend)”라고 이야기하면, 시리는 “그래, 언제?(OK, When?)”라고 묻는다. 언제 어디서 만날 것인지에 대한 몇 번의 대화가 오간 뒤 시리가 알아서 캘린더에 일정을 추가한다. 이것은 약속 전 알람이 울리는 캘린더 기능으로 이어진다. 이 같은 대화형 음성 인식은 아직 진화해야 할 부분이 남았음에도 새로운 UI의 장을 연 것으로 평가받는다. 애플은 향후 애플TV에도 시리 기능을 포함시킬 것으로 알려졌다.
이제 보고 듣고 말하는 스마트기기가 대세로 자리잡았다. 전미가전협회(CEA) 연구부문 총괄임원인 숀 더브라박은 CES에서 “2012년은 UI의 해가 될 것”이라고 말했다. 누구나 쉽게 사용할 수 있는 UI야말로 스마트기기를 대중화할 요소이기 때문이다. 매뉴얼 없이 누구나 쉽게 작동시키고, 기능을 활용할 수 있는 아이폰의 터치 UI를 생각하면 이 같은 주장은 충분히 설득력이 있다.
삼성전자는 최근 출시한 스마트TV에 음성과 동작 인식 기술을 채택하고, 적극 홍보에 나섰다. 거실 소파에 앉아 목소리로 TV를 켜거나 끌 수 있고 채널과 볼륨도 조절할 수 있다. TV 전면에 설치된 카메라는 동작 인식을 지원한다. 책장을 넘기는 것 같은 간단한 손동작으로 채널을 바꿀 수 있다.
LG전자는 매직 리모컨을 내세웠다. 이것은 본래의 리모컨 기능 외에 키보드와 마우스, 음성 검색 기능까지 해낸다. 이 중 가장 편리한 기능은 리모컨 뒤에 있는 ‘쿼티’ 자판을 누르지 않고도 음성으로 인터넷 검색을 할 수 있는 것. 애플리케이션(이하 앱)도 음성으로 바로 찾을 수 있다. 특정 손동작을 TV가 명령으로 인식하는 ‘매직 제스처’ 기능도 갖췄다. 예를 들어 ‘V’자를 그리는 동작으로 ‘최근 본 영상’ 목록을 실행시킬 수 있다.
아이폰 4S의 ‘시리’는 대화형 음성 인식 기능이 돋보인다
시리가 아이폰4S의 주요 기능으로 인기를 얻자 스마트폰 업계에서는 이에 견줄 만한 앱 개발에 적극 나섰다. 구글은 올해 상반기 완료를 목표로 시리에 대응할 ‘마젤’을 개발 중이다. 특정 명령만 이해하는 구글의 음성 검색에서 나아가 지능적인 음성 인식 앱을 선보이겠다는 전략이다. 앱 업체의 음성 인식 앱도 나왔다. 안드로이드용 음성 인식 앱 ‘이리스(IRIS)’는 지난해 10월 첫선을 보였다. 블링고, 블루토네이도 등도 음성 인식 기능을 탑재한 앱을 내놓았다.
인식 기술은 사람이 기기를 만지지 않아도 스마트기기가 자동으로 작동할 수 있는 기반을 마련해준다는 점에서 스마트기기의 발전을 예고한다. 이 때문에 스마트 시장을 겨냥한 많은 기업이 새로운 인식 기술을 개발 중이다.
진화하는 인식 기술
TV 리모콘이 게임, 검색은 물론 음성 및 동작 인식 기능까지 탑재한 스마트 리모콘으로 진화하고 있다.
퀄컴은 정황 인식(Context Awareness) 기술을 개발 중이다. 스마트기기가 자동으로 정황에 반응하도록 하는 정확 인식 기술은 다양한 용도로 쓸 수 있다. 예를 들어, 주변이 시끄러운 곳에서 통화를 하면 스마트폰이 이를 감지하고 자동으로 통화음을 키워준다. 해외 레스토랑에서 스마트기기의 카메라로 메뉴판 글자를 촬영하면 이를 자동으로 번역하고 검색해 관련 이미지까지 찾아주는 방식이 될 수도 있다.
사물지능통신(Mach ine to Machine·M2M)과 결합할 경우 인식 기술은 한 차원 더 발전할 것으로 보인다. 사물지능통신은 방송통신망을 이용해 사람이나 지능화된 기기에 사물정보를 제공하거나, 사람 혹은 지능화된 기기가 사물 상태를 제어하는 통신을 의미한다. 여기에 인식 기술을 결합하면, 스마트기기가 정황을 인식하고 다른 기기에 즉각 명령을 보내는 것이 가능해진다. 이를 테면, 스마트폰이 추운 겨울 밤 기온이 낮아진 것을 감안하고 출발 전 미리 자동차의 시동을 걸어놓을 수 있다.
스마트폰으로 급성장한 IT산업은 인식 기술을 통해 다시 한 번 도약 기회를 얻었다는 게 전문가들의 분석이다. 특히 시장이 포화상태에 이른 TV 분야에서는 인식 기술이 새로운 수요를 창출하는 계기가 될 것이라는 전망이 나온다. 박강호 대신증권 연구위원은 “TV는 흑백에서 컬러로, 또 브라운관에서 평판으로 발전할 때 급성장했다”며 “스마트TV는 음성 인식 같은 새로운 기능을 통해 2~3년 후 성장에 탄력을 받을 것”이라고 내다봤다.