‘컴덱스는 언제 처음 열렸을까?’ ‘우리나라에서 처음 발행된 우표는 무엇일까?’
우리가 어떤 의문을 가질 때 머리 속에 떠오르는 문장의 꼴은 이렇게 ‘입말’(口語)의 형식이다. 하지만 인터넷의 검색엔진에다 이런 형식의 질문을 그대로 던졌다가는 ‘입력한 검색어로 문서를 찾을 수 없습니다’라거나 ‘검색 결과가 없습니다’라는 식의 짤막하고 실망스러운 응답을 만나기 십상이다. 지금 쓰이는 대부분의 검색엔진들은 머리 속에 떠오른 본래의 입말을 재가공해 ‘컴덱스 · 최초’, 혹은 ‘한국 · 최초 · 우표’라는 식으로 핵심어만 뽑아내 입력해야만 답(혹은 오답?)을 내놓는다. 표제어들 사이에 넣는 ‘·’(혹은 and)나 ‘or’, ‘+’나 ‘-’ 같은 기호의 쓰임새도 검색엔진마다 조금씩 달라서 따로 익혀두지 않으면 제대로 이용하기 어렵다.
입말, 곧 ‘자연언어’를 인식해 답을 주는 획기적인 검색엔진. 11월16일 기자들에게 첫선을 보인 엠파스(www. empas.com)가 관심을 끄는 첫번째 이유다. ‘전자 미디어(E-Media)의 나침반(Compas)’ 을 뜻하는 엠파스는, 무엇보다 머리 속에 떠오른 문장을 그대로 입력할 수 있도록 돼 있다. ‘김희선의 데뷔 드라마는?’ ‘차인표와 신애라의 결혼식날은?’ ‘노스트라다무스가 예언했던 자동차의 이름은?’ 등과 같이, 마치 친구나 전문가에게 직접 질문하는 것처럼 입력하는 것이다. 그렇게 해서 나열되는 웹 문서의 줄거리와 주소를 보노라면 때때로 상식 백과사전을 이용하는 것이 아닌가 하는 착각까지 든다. 물론 언제나 정답만을 내놓는 것은 아니다. 검색엔진은 어디까지나 한글로 된 웹 문서들 중에서 관련 단어가 들어간 것을 골라내기 때문이다. 그러나 대체적인 정확도는 매우 높은 편이다. 더욱이 자연언어를 인식하지 못해 무조건 ‘검색 결과가 없습니다’라고 반응하는 여느 검색엔진들에 견주면 엠파스의 성능은 가히 감탄할 만한 수준이다.
엠파스는 올해 초 지식발전소의 박석봉사장(35)과 숭실대 이준호교수(35·컴퓨터과학과)가 우연히 동창 모임에서 만난 덕택에 탄생할 수 있었다. 10여년 동안 검색 시스템을 연구해 온 이교수는 “웹에 올라와 있는 수백만 페이지의 데이터를 수백만명의 네티즌들이 언제든지 정확하게 찾을 수 있게 해주는 것이 꿈”이라고 말했고, 여기에 대해 박사장이 맞장구를 치며 의기투합한 것. 박사장에게는 시티스케이프, 시네마플라자 등 인터넷 전문 콘텐츠와 서비스를 운영하며 얻은 노하우가 있었다.
엔지니어 7명과 디렉토리(웹사이트들을 주제별로 분류한 것) 개발자 7명이 매달린 지 7개월, 마침내 엠파스가 탄생했다. 과거에는 경험할 수 없었던 새로운 형태의 검색엔진이었다. 적어도 그 작동 메커니즘으로만 본다면 국내뿐 아니라 전세계적으로도 그 유례를 찾아보기 힘든 작품이었다. 문장 입력 형식을 도입, 미국에서 크게 각광받고 있는 ‘애스크 지브스’(www.ask. com)의 경우도 순수한 자연언어 방식이라기보다는 다양한 질문 데이터베이스를 미리 만들어놓고, 그 중에서 핵심어를 추출하도록 한 것. 종래의 검색엔진을 조금 변형한 형식인 셈이다.
이준호교수는 “자연언어 인식 문제는 이미 1960년대부터 연구돼 온 것이기 때문에 우수한 성능을 가진 엔진(제품)들이 이미 많이 나와 있는데도 인터넷에 이 기술이 제대로 적용되지 않는 것이 이상하다”며 “정보의 증가세가 유독 가파르고 갱신 주기가 빠른 웹이야말로 자연언어 검색 방식이 효과적인 분야” 라고 말한다.
그러고 보면 인터넷 검색엔진의 ‘원조’라 할 만한 라이코스나 야후 등의 검색 알고리즘은 이미 ‘몇년(혹은 몇 달) 묵은’ 것이어서 그 정확도도 그만큼 떨어질 수밖에 없다. “질의어를 치고 5초 안에 결과가 나오지 않으면 미련없이 그 사이트를 떠나버릴 만큼 인터넷 이용자들의 요구 수준은 엄격하다. ‘정확성’과 ‘속도’야말로 검색엔진들이 갖춰야 할 필수요소”라고 이교수는 말한다.
그밖에도 엠파스에는 ‘자랑할 만한’ 기능이 적지 않다. 이 분야의 전문가들이 보더라도 인정하지 않을 수 없는 대목들이다. 그 중 하나는 웹사이트가 동작중인지를 매일 점검하는 기능(Site Activity Check). 해당 사이트가 사흘간 연결되지 않으면 ‘Dead Link’(연결 끊김) 버튼을 붙이고, 15일간 지속되면 아예 디렉토리에서 이 사이트를 삭제해 항상 접속 가능한 사이트 정보만 알려준다. 이렇게 하자면 흔히 ‘로봇’이라 부르는 에이전트가 24시간 국내 웹사이트들을 돌면서 그 연결망을 확인해야 한다. 박사장은 “현재 450만페이지의 국내 사이트 정보를 갖추고 있는데, 대부분 중복되지 않는 데이터들” 이라고 자랑한다.
흔히 쓰이는 단체의 이름과 공식명칭이 달라 웹사이트 검색이 어려운 점을 고려해 ‘사이트 이름 검색’ 기능을 더한 것도 눈에 띈다. 이를 활용하면 가령 연세대학교를 찾을 때 ‘연대’ ‘연세대’ ‘연세대학교’ 등 평소 쓰던 습관대로 검색어를 넣어도 같은 결과를 얻을 수 있다.
다양한 검색 ‘옵션’도 엠파스의 강점. ‘아무 단어나 포함’ ‘모든 단어(순서없이)’ ‘모든 단어(무순 25단어 안’ 등 여덟 가지 옵션을 제공할 뿐 아니라 전문 이용자들을 위한 ‘고급검색’ 기능까지 갖추고 있다.
엠파스는 일반에 공개하기도 전에 벤처자본가들의 눈에 먼저 띄었다. 10월27일 드림벤처캐피탈 우리기술투자 한국벤처금융 등으로부터 모두 20억원의 자금을 유치한 것.
박사장은 “다음달 중에 hwp, doc, zip 등 파일에 대한 검색기능을 강화할 것”이라며 “국내 검색시장의 지형이 바뀔 것”이라고 말한다. 내년 상반기에는 일본과 중국의 검색시장에도 진출할 계획이다.
우리가 어떤 의문을 가질 때 머리 속에 떠오르는 문장의 꼴은 이렇게 ‘입말’(口語)의 형식이다. 하지만 인터넷의 검색엔진에다 이런 형식의 질문을 그대로 던졌다가는 ‘입력한 검색어로 문서를 찾을 수 없습니다’라거나 ‘검색 결과가 없습니다’라는 식의 짤막하고 실망스러운 응답을 만나기 십상이다. 지금 쓰이는 대부분의 검색엔진들은 머리 속에 떠오른 본래의 입말을 재가공해 ‘컴덱스 · 최초’, 혹은 ‘한국 · 최초 · 우표’라는 식으로 핵심어만 뽑아내 입력해야만 답(혹은 오답?)을 내놓는다. 표제어들 사이에 넣는 ‘·’(혹은 and)나 ‘or’, ‘+’나 ‘-’ 같은 기호의 쓰임새도 검색엔진마다 조금씩 달라서 따로 익혀두지 않으면 제대로 이용하기 어렵다.
입말, 곧 ‘자연언어’를 인식해 답을 주는 획기적인 검색엔진. 11월16일 기자들에게 첫선을 보인 엠파스(www. empas.com)가 관심을 끄는 첫번째 이유다. ‘전자 미디어(E-Media)의 나침반(Compas)’ 을 뜻하는 엠파스는, 무엇보다 머리 속에 떠오른 문장을 그대로 입력할 수 있도록 돼 있다. ‘김희선의 데뷔 드라마는?’ ‘차인표와 신애라의 결혼식날은?’ ‘노스트라다무스가 예언했던 자동차의 이름은?’ 등과 같이, 마치 친구나 전문가에게 직접 질문하는 것처럼 입력하는 것이다. 그렇게 해서 나열되는 웹 문서의 줄거리와 주소를 보노라면 때때로 상식 백과사전을 이용하는 것이 아닌가 하는 착각까지 든다. 물론 언제나 정답만을 내놓는 것은 아니다. 검색엔진은 어디까지나 한글로 된 웹 문서들 중에서 관련 단어가 들어간 것을 골라내기 때문이다. 그러나 대체적인 정확도는 매우 높은 편이다. 더욱이 자연언어를 인식하지 못해 무조건 ‘검색 결과가 없습니다’라고 반응하는 여느 검색엔진들에 견주면 엠파스의 성능은 가히 감탄할 만한 수준이다.
엠파스는 올해 초 지식발전소의 박석봉사장(35)과 숭실대 이준호교수(35·컴퓨터과학과)가 우연히 동창 모임에서 만난 덕택에 탄생할 수 있었다. 10여년 동안 검색 시스템을 연구해 온 이교수는 “웹에 올라와 있는 수백만 페이지의 데이터를 수백만명의 네티즌들이 언제든지 정확하게 찾을 수 있게 해주는 것이 꿈”이라고 말했고, 여기에 대해 박사장이 맞장구를 치며 의기투합한 것. 박사장에게는 시티스케이프, 시네마플라자 등 인터넷 전문 콘텐츠와 서비스를 운영하며 얻은 노하우가 있었다.
엔지니어 7명과 디렉토리(웹사이트들을 주제별로 분류한 것) 개발자 7명이 매달린 지 7개월, 마침내 엠파스가 탄생했다. 과거에는 경험할 수 없었던 새로운 형태의 검색엔진이었다. 적어도 그 작동 메커니즘으로만 본다면 국내뿐 아니라 전세계적으로도 그 유례를 찾아보기 힘든 작품이었다. 문장 입력 형식을 도입, 미국에서 크게 각광받고 있는 ‘애스크 지브스’(www.ask. com)의 경우도 순수한 자연언어 방식이라기보다는 다양한 질문 데이터베이스를 미리 만들어놓고, 그 중에서 핵심어를 추출하도록 한 것. 종래의 검색엔진을 조금 변형한 형식인 셈이다.
이준호교수는 “자연언어 인식 문제는 이미 1960년대부터 연구돼 온 것이기 때문에 우수한 성능을 가진 엔진(제품)들이 이미 많이 나와 있는데도 인터넷에 이 기술이 제대로 적용되지 않는 것이 이상하다”며 “정보의 증가세가 유독 가파르고 갱신 주기가 빠른 웹이야말로 자연언어 검색 방식이 효과적인 분야” 라고 말한다.
그러고 보면 인터넷 검색엔진의 ‘원조’라 할 만한 라이코스나 야후 등의 검색 알고리즘은 이미 ‘몇년(혹은 몇 달) 묵은’ 것이어서 그 정확도도 그만큼 떨어질 수밖에 없다. “질의어를 치고 5초 안에 결과가 나오지 않으면 미련없이 그 사이트를 떠나버릴 만큼 인터넷 이용자들의 요구 수준은 엄격하다. ‘정확성’과 ‘속도’야말로 검색엔진들이 갖춰야 할 필수요소”라고 이교수는 말한다.
그밖에도 엠파스에는 ‘자랑할 만한’ 기능이 적지 않다. 이 분야의 전문가들이 보더라도 인정하지 않을 수 없는 대목들이다. 그 중 하나는 웹사이트가 동작중인지를 매일 점검하는 기능(Site Activity Check). 해당 사이트가 사흘간 연결되지 않으면 ‘Dead Link’(연결 끊김) 버튼을 붙이고, 15일간 지속되면 아예 디렉토리에서 이 사이트를 삭제해 항상 접속 가능한 사이트 정보만 알려준다. 이렇게 하자면 흔히 ‘로봇’이라 부르는 에이전트가 24시간 국내 웹사이트들을 돌면서 그 연결망을 확인해야 한다. 박사장은 “현재 450만페이지의 국내 사이트 정보를 갖추고 있는데, 대부분 중복되지 않는 데이터들” 이라고 자랑한다.
흔히 쓰이는 단체의 이름과 공식명칭이 달라 웹사이트 검색이 어려운 점을 고려해 ‘사이트 이름 검색’ 기능을 더한 것도 눈에 띈다. 이를 활용하면 가령 연세대학교를 찾을 때 ‘연대’ ‘연세대’ ‘연세대학교’ 등 평소 쓰던 습관대로 검색어를 넣어도 같은 결과를 얻을 수 있다.
다양한 검색 ‘옵션’도 엠파스의 강점. ‘아무 단어나 포함’ ‘모든 단어(순서없이)’ ‘모든 단어(무순 25단어 안’ 등 여덟 가지 옵션을 제공할 뿐 아니라 전문 이용자들을 위한 ‘고급검색’ 기능까지 갖추고 있다.
엠파스는 일반에 공개하기도 전에 벤처자본가들의 눈에 먼저 띄었다. 10월27일 드림벤처캐피탈 우리기술투자 한국벤처금융 등으로부터 모두 20억원의 자금을 유치한 것.
박사장은 “다음달 중에 hwp, doc, zip 등 파일에 대한 검색기능을 강화할 것”이라며 “국내 검색시장의 지형이 바뀔 것”이라고 말한다. 내년 상반기에는 일본과 중국의 검색시장에도 진출할 계획이다.
|