주간동아 211

..

끝내주는 검색엔진 나왔다

‘자연언어’ 인식 ‘엠파스’ 첫 선… ‘김희선 데뷔 드라마는?’ 치면 즉시 ‘답’

  • 김상현 기자 walf@donga.com

    입력2007-03-15 11:47:00

  • 글자크기 설정 닫기
    끝내주는 검색엔진 나왔다
    ‘컴덱스는 언제 처음 열렸을까?’ ‘우리나라에서 처음 발행된 우표는 무엇일까?’

    우리가 어떤 의문을 가질 때 머리 속에 떠오르는 문장의 꼴은 이렇게 ‘입말’(口語)의 형식이다. 하지만 인터넷의 검색엔진에다 이런 형식의 질문을 그대로 던졌다가는 ‘입력한 검색어로 문서를 찾을 수 없습니다’라거나 ‘검색 결과가 없습니다’라는 식의 짤막하고 실망스러운 응답을 만나기 십상이다. 지금 쓰이는 대부분의 검색엔진들은 머리 속에 떠오른 본래의 입말을 재가공해 ‘컴덱스 · 최초’, 혹은 ‘한국 · 최초 · 우표’라는 식으로 핵심어만 뽑아내 입력해야만 답(혹은 오답?)을 내놓는다. 표제어들 사이에 넣는 ‘·’(혹은 and)나 ‘or’, ‘+’나 ‘-’ 같은 기호의 쓰임새도 검색엔진마다 조금씩 달라서 따로 익혀두지 않으면 제대로 이용하기 어렵다.

    입말, 곧 ‘자연언어’를 인식해 답을 주는 획기적인 검색엔진. 11월16일 기자들에게 첫선을 보인 엠파스(www. empas.com)가 관심을 끄는 첫번째 이유다. ‘전자 미디어(E-Media)의 나침반(Compas)’ 을 뜻하는 엠파스는, 무엇보다 머리 속에 떠오른 문장을 그대로 입력할 수 있도록 돼 있다. ‘김희선의 데뷔 드라마는?’ ‘차인표와 신애라의 결혼식날은?’ ‘노스트라다무스가 예언했던 자동차의 이름은?’ 등과 같이, 마치 친구나 전문가에게 직접 질문하는 것처럼 입력하는 것이다. 그렇게 해서 나열되는 웹 문서의 줄거리와 주소를 보노라면 때때로 상식 백과사전을 이용하는 것이 아닌가 하는 착각까지 든다. 물론 언제나 정답만을 내놓는 것은 아니다. 검색엔진은 어디까지나 한글로 된 웹 문서들 중에서 관련 단어가 들어간 것을 골라내기 때문이다. 그러나 대체적인 정확도는 매우 높은 편이다. 더욱이 자연언어를 인식하지 못해 무조건 ‘검색 결과가 없습니다’라고 반응하는 여느 검색엔진들에 견주면 엠파스의 성능은 가히 감탄할 만한 수준이다.

    엠파스는 올해 초 지식발전소의 박석봉사장(35)과 숭실대 이준호교수(35·컴퓨터과학과)가 우연히 동창 모임에서 만난 덕택에 탄생할 수 있었다. 10여년 동안 검색 시스템을 연구해 온 이교수는 “웹에 올라와 있는 수백만 페이지의 데이터를 수백만명의 네티즌들이 언제든지 정확하게 찾을 수 있게 해주는 것이 꿈”이라고 말했고, 여기에 대해 박사장이 맞장구를 치며 의기투합한 것. 박사장에게는 시티스케이프, 시네마플라자 등 인터넷 전문 콘텐츠와 서비스를 운영하며 얻은 노하우가 있었다.

    엔지니어 7명과 디렉토리(웹사이트들을 주제별로 분류한 것) 개발자 7명이 매달린 지 7개월, 마침내 엠파스가 탄생했다. 과거에는 경험할 수 없었던 새로운 형태의 검색엔진이었다. 적어도 그 작동 메커니즘으로만 본다면 국내뿐 아니라 전세계적으로도 그 유례를 찾아보기 힘든 작품이었다. 문장 입력 형식을 도입, 미국에서 크게 각광받고 있는 ‘애스크 지브스’(www.ask. com)의 경우도 순수한 자연언어 방식이라기보다는 다양한 질문 데이터베이스를 미리 만들어놓고, 그 중에서 핵심어를 추출하도록 한 것. 종래의 검색엔진을 조금 변형한 형식인 셈이다.



    이준호교수는 “자연언어 인식 문제는 이미 1960년대부터 연구돼 온 것이기 때문에 우수한 성능을 가진 엔진(제품)들이 이미 많이 나와 있는데도 인터넷에 이 기술이 제대로 적용되지 않는 것이 이상하다”며 “정보의 증가세가 유독 가파르고 갱신 주기가 빠른 웹이야말로 자연언어 검색 방식이 효과적인 분야” 라고 말한다.

    그러고 보면 인터넷 검색엔진의 ‘원조’라 할 만한 라이코스나 야후 등의 검색 알고리즘은 이미 ‘몇년(혹은 몇 달) 묵은’ 것이어서 그 정확도도 그만큼 떨어질 수밖에 없다. “질의어를 치고 5초 안에 결과가 나오지 않으면 미련없이 그 사이트를 떠나버릴 만큼 인터넷 이용자들의 요구 수준은 엄격하다. ‘정확성’과 ‘속도’야말로 검색엔진들이 갖춰야 할 필수요소”라고 이교수는 말한다.

    그밖에도 엠파스에는 ‘자랑할 만한’ 기능이 적지 않다. 이 분야의 전문가들이 보더라도 인정하지 않을 수 없는 대목들이다. 그 중 하나는 웹사이트가 동작중인지를 매일 점검하는 기능(Site Activity Check). 해당 사이트가 사흘간 연결되지 않으면 ‘Dead Link’(연결 끊김) 버튼을 붙이고, 15일간 지속되면 아예 디렉토리에서 이 사이트를 삭제해 항상 접속 가능한 사이트 정보만 알려준다. 이렇게 하자면 흔히 ‘로봇’이라 부르는 에이전트가 24시간 국내 웹사이트들을 돌면서 그 연결망을 확인해야 한다. 박사장은 “현재 450만페이지의 국내 사이트 정보를 갖추고 있는데, 대부분 중복되지 않는 데이터들” 이라고 자랑한다.

    흔히 쓰이는 단체의 이름과 공식명칭이 달라 웹사이트 검색이 어려운 점을 고려해 ‘사이트 이름 검색’ 기능을 더한 것도 눈에 띈다. 이를 활용하면 가령 연세대학교를 찾을 때 ‘연대’ ‘연세대’ ‘연세대학교’ 등 평소 쓰던 습관대로 검색어를 넣어도 같은 결과를 얻을 수 있다.

    다양한 검색 ‘옵션’도 엠파스의 강점. ‘아무 단어나 포함’ ‘모든 단어(순서없이)’ ‘모든 단어(무순 25단어 안’ 등 여덟 가지 옵션을 제공할 뿐 아니라 전문 이용자들을 위한 ‘고급검색’ 기능까지 갖추고 있다.

    엠파스는 일반에 공개하기도 전에 벤처자본가들의 눈에 먼저 띄었다. 10월27일 드림벤처캐피탈 우리기술투자 한국벤처금융 등으로부터 모두 20억원의 자금을 유치한 것.

    박사장은 “다음달 중에 hwp, doc, zip 등 파일에 대한 검색기능을 강화할 것”이라며 “국내 검색시장의 지형이 바뀔 것”이라고 말한다. 내년 상반기에는 일본과 중국의 검색시장에도 진출할 계획이다.

    시티스케이프 만든 ‘콘텐츠의 귀재’

    소프트웨어플라자 등 2년새 5개 개발 … 곧 PC 쇼핑몰 등 선보일 것


    박석봉사장은 결코 서두르지 않는다. 나눔기술의 개발 담당 이사로 있으면서 한글 프로그래밍 언어 ‘씨앗’과 그룹웨어 ‘워크플로우’ 개발에 참여했던 그는, 수많은 인터넷 기업들이 화려한 수사와 이미지들로 앞다퉈 ‘그랜드 오프닝’을 외치는 것과 달리 소박하게 시작했다. 적어도 인터넷 ‘콘텐츠’ 만 놓고 보면 그렇다.

    1997년 3월 법인을 세운 지 1년만에 ‘신나는 도시 생활문화 정보’를 내세운 시티스케이프(www.cityscape. co.kr)가 출범했다. 주로 서울 및 근교의 생활문화 정보를 소개하는 시티스케이프는 마니아 집단을 만들 만큼 인기를 모았다(올해 10월 현재 500만 방문자 돌파). 98년에는 정보통신부장관상까지 받았다.

    그해 소프트웨어 다운로드 서비스인 소프트웨어플라자(www.softwareplaza.com)가 문을 열었고, 두달 뒤에는 영화-비디오 정보 사이트인 시네마플라자(www.cinemaplaza.com)가 선을 보였다. 다시 1년 뒤, 레저 및 등산 정보를 제공하는 ‘아웃도어21’(www.outdoor21.com)과 웹다이어리 ‘마이셸’ (www.myshell.com), 웹호스팅 서비스인 ‘웹턴’(www.webturn)이 지식발전소의 새 식구로 가세했다.

    “문제는 내용과 품질이다.” 박사장은 “느리되 그 실속을 꼼꼼하게 챙기는 쪽을 택했다”고 말한다.

    그는 곧 이메일 계정 서비스인 엠팔(Empal)과 PC 및 관련 제품 쇼핑몰인 클릭PC, 이벤트 디렉토리 서비스인 ‘이벤트시티’ 등을 추가로 선보일 계획이다.




    댓글 0
    닫기