‘보이지 않는 웹’(Invisible Web)을 아십니까. 일반 검색엔진으로는 아무리 해도 찾을 수 없는, 숨어 있는 웹 혹은 정보. 그간 여러 경로로 조사된 자료들에 따르면 ‘공개적으로 드러난’ 월드와이드웹(WWW)의 규모는 1999년 2월 현재 약 8억페이지다. 전세계적으로 약 280만대의 ‘연결된’ 컴퓨터 서버들에 담긴 분량인데, 이를 다시 세분하면 텍스트가 6조(兆) 바이트, 이미지가 3조 바이트로 총 9조 바이트다. 여기에 HTML로 코딩된 부분과 거기에 포함된 ‘여백’(White Space)까지 더하면 그 숫자는 15조 바이트로 다시 껑충 뛴다. 책으로 치면 약 1500만권 분량에 해당하는 것. 이를 낱장의 종이로 바꿔 위로 차곡차곡 쌓을 경우 그 높이는 약 720km에 이른다. 이는 1998년 4월에 발표된 웹 분량(3억2000만페이지)보다 두 배 이상 늘어난 것으로, 정보량의 증가 속도가 얼마나 빠른지를 잘 보여주는 증거다.
‘야후’도 모아둔 정보 7.4% 불과
문제는 이처럼 망망한 정보의 대해(大海)에서, 정확하고 빠르게 목적지를 찾아줘야 할 검색엔진들이 제몫을 다하지 못하고 있다는 사실. 가장 뛰어난 성능을 가진 것으로 평가받은 ‘노던라이트’ (www.nlsearch.com)조차 전체 웹 사이트의 16% 정도에 해당하는 약 1억2800만 페이지의 정보밖에 모아두지 못했다. ‘야후’(www.yahoo.com, 7.4%) ‘익사이트’(www.excite.com, 5.6%) ‘라이코스’(www.lycos.com, 2.5%) 등 대표적인 인기 포털 사이트들은 더욱 참담한 결과를 보여줬다. 더욱 심각한 것은 이들 검색엔진을 아주 적절하게, 보완적으로 활용하더라도 전체 웹 정보를 검색하는 것은 불가능하다는 점이다. 연구원들에 따르면, 그렇게 하더라도 얻을 수 있는 웹 정보의 양은 전체의 42%에 불과하다. 적어도 58%의 정보가 ‘보이지 않는 웹’으로 남는다는 것. 이런 결과가 나오는 것은 일반적인 검색엔진들이 지닌 몇 가지 맹점(盲點) 때문이다. 웹을 구성하는 HTML 문서를 찾는 일은, HTML 형식의 단순성만큼이나 간단하다. HTML 문서는 그 제목과 성격을 규정해 주는 헤드 부분(‘head’와 ‘/head’ 사이에 있는 부분), 문서 내용을 담은 바디(body) 부분으로 구성된다. 따라서 검색엔진이 HTML 문서를 긁어오고, 그 내용을 색인화해 데이터베이스로 저장하는 일은 그리 어려운 일이 아니다.
그보다 좀더 어려운 일은 웹 상의 ‘모든’ 문서를 찾아내는 작업이다. 검색엔진은 보통 스파이더나 로봇이라고 부르는 자동화 프로그램을 이용해 다양하게 연결된 웹 페이지를 검색하고 정보를 긁어 온다. 이때 스파이더나 로봇의 기능은 웹 페이지에 나와 있는 링크들에 의존한다. 하이퍼링크를 따라 이 페이지에서 저 페이지로 옮겨가는 것이다. 그러나 이러한 작업은, 서버 컴퓨터에 엄청나게 많은 리소스(Resources·자원)를 요구한다. 링크를 따라 긁어오고 색인화하는 정보량이 많을수록 서버의 리소스 소비도 그만큼 커진다. 그러다 보니 검색엔진들은 종종 특정 웹 사이트들로부터 추출하고 색인화할 수 있는 페이지 규모를 제한한다. 검색엔진들에 포착되지 않는 웹 페이지, 이른바 ‘보이지 않는 웹’의 일부는 이 때문에 발생한다. 근래 들어 몇몇 주요 검색엔진들이 로봇의 색인화 기능을 대폭 강화하고 있지만 문제는 여전히 남는다. 중복된 정보와 스팸(Spam·대량의 상업용 이메일)이 너무나 많은 것. 검색엔진인 잉크토미와 알타비스타가 축적한 웹의 정보량은 대략 12억~15억 페이지. 각기 ‘세계 최대’라고 주장하는, 엄청난 규모다. 그러나 이중 중복된 정보나 스팸 정보, 공백 페이지 등을 빼면 3억5000만~5억 페이지에 지나지 않는다. 문제는 이 숫자에서, 뻔히 웹을 통해 볼 수 있는데도 검색엔진에는 잡히지 않는 정보가 제외돼 있다는 사실이다. 바로 ‘보이지 않는 웹’이다.
왜 이런 일이 일어날까. 가장 기본적으로는 해당 웹 사이트에 검색엔진이 추적할 수 있는 링크가 없기 때문이다. 또는 해당 웹 사이트가 그래픽, CGI 스크립트, 마크로미디어 플래시, PDF 파일 등 검색엔진이 색인화할 수 없는 형식의 데이터를 담고 있기 때문이다.
그러나 그보다 더 방대한 규모를 차지하는 ‘보이지 않는 웹’은 바로 ‘데이터베이스에 저장된 정보’들이다. 검색엔진의 스파이더나 로봇이 이런 데이터베이스와 마주치는 것은, 마치 튼튼하게 빗장이 질러진 대형 도서관에 들어가려는 것과 같다. 이 도서관의 주소를 알 수는 있지만, 정작 그 안에 저장된 책이나 잡지, 문서 등에 대해서는 아무런 정보도 줄 수 없는 것이다. 웹에는 이같은 데이터베이스 정보가 수천~수백만 개 있을 것으로 추정된다. 이들 정보에 접근하려면 일반 검색엔진 대신 이용자 자신이 직접 해당 웹 사이트를 방문해야 한다. 이들 데이터베이스 사이트는 제각기 해당 정보만을 검색할 수 있는 자체 서비스를 갖추고 있다.
최근 들어 이같은 ‘보이지 않는 웹’을 효과적으로 찾아내려는 시도가 활발하다. 여느 웹 사이트 정보와 달리, 일반 검색엔진의 그물에 걸리지 않았던 이들 정보 중에는 고급스러운 것들이 유난히 많기 때문이다. 미국 조지 워싱턴 대학에 있는 겔먼(Gelman) 도서관의 참고 사서(Reference Librarian)인 게리 프라이스씨는 온라인 데이터베이스와 다른 고급 검색자원에 관한 한 최고의 전문가로 꼽힌다. 그는 인터넷 상의 방대한 ‘보이지 않는 웹’ 관련 정보를 ‘다이렉트 서치’라는 이름으로 잘 정리해 두었다(http://gwis2.circ. gwu.edu/~gprice/direct.htm). 여느 검색엔진의 그물망에는 걸리지 않지만, 일단 찾아내면 쓸모가 매우 큰 고급 정보들이다. “전문적인 검색사든 일반적인 인터넷 이용자든, 적절한 검색 도구를 썼더라면 훨씬 더 쉽고 정확하게 찾을 수 있었을 정보를 실제로는 놓치고 있을지도 모른다는 점을 늘 고려해야 한다”라고 프라이스씨는 말한다. 그가 권하는 몇 가지 ‘특별한’ 검색엔진을 더 소개하면 다음과 같다.
▲10K Wizard(www.tenkwizard. com): 미 증권거래소에 등록된 6만8000개 이상의 기업들에 대한 정보를 제공한다.
▲wwdyn.mercurycenter. com/ business/moneytree/ 프라이스워터하우스쿠퍼스의 ‘벤처 캐피털에 대한 머니 트리 서베이’ 결과 제공
▲스피치봇(speechbot.research. compaq.com): 컴팩이 진행중인 ‘음성’ 검색엔진. 음성인식 기술을 이용, 미국내 4670개 라디오 프로그램으로부터 색인화한 4170시간 분량의 음성 컨텐트를 검색할 수 있게 해준다.
▲인비저블웹(www.invisibleweb. com): 이름 그대로, 여느 검색엔진으로는 찾을 수 없는, 보석 같은 정보를 알려주는 틈새 검색엔진이다. 전문 서퍼들이 직접 웹 사이트들을 뒤져 만든 우량 검색 사이트.
▲알파서치(www.calvin.edu/ㅋ library/searreso/internet/as/): 특정 주제에 초점을 맞춘 웹 사이트들만을 모아 정리한 검색엔진. 캘빈 대학의 헤크먼 도서관에서 개발-운영중이다.
▲더 빅 허브(www.thebighub. com): 300여개의 카테고리, 1500여개의 주제로 나눈 디렉토리 서비스. 야후나 라이코스 같은 ‘주류(主流) 검색엔진들과는 또 다른 정보를 준다.
▲인포마인 다중 데이터베이스 검색엔진(http://infomine.ucr.edu/search. phtml): 학술적 성격이 강한 검색엔진. 다양한 학술 논문과 출처, 전자 저널, 서적, 온라인 도서관 카탈로그, 연구원 디렉토리 등을 담고 있다.
▲웹데이터(www.webdata.com): 일종의 데이터베이스 포털이다. 온라인 데이터베이스에 대한 정보만을 특화해 모으고 분류해 두었다.
물론 이들 틈새 검색엔진이 궁극적인 해답이 될 수는 없다. 결국은 무엇을 찾는지에 따라, 적절한 검색 도구와 수단을 상호 보완적으로 활용하는 것이 최선의 선택이 될 것이다.
‘야후’도 모아둔 정보 7.4% 불과
문제는 이처럼 망망한 정보의 대해(大海)에서, 정확하고 빠르게 목적지를 찾아줘야 할 검색엔진들이 제몫을 다하지 못하고 있다는 사실. 가장 뛰어난 성능을 가진 것으로 평가받은 ‘노던라이트’ (www.nlsearch.com)조차 전체 웹 사이트의 16% 정도에 해당하는 약 1억2800만 페이지의 정보밖에 모아두지 못했다. ‘야후’(www.yahoo.com, 7.4%) ‘익사이트’(www.excite.com, 5.6%) ‘라이코스’(www.lycos.com, 2.5%) 등 대표적인 인기 포털 사이트들은 더욱 참담한 결과를 보여줬다. 더욱 심각한 것은 이들 검색엔진을 아주 적절하게, 보완적으로 활용하더라도 전체 웹 정보를 검색하는 것은 불가능하다는 점이다. 연구원들에 따르면, 그렇게 하더라도 얻을 수 있는 웹 정보의 양은 전체의 42%에 불과하다. 적어도 58%의 정보가 ‘보이지 않는 웹’으로 남는다는 것. 이런 결과가 나오는 것은 일반적인 검색엔진들이 지닌 몇 가지 맹점(盲點) 때문이다. 웹을 구성하는 HTML 문서를 찾는 일은, HTML 형식의 단순성만큼이나 간단하다. HTML 문서는 그 제목과 성격을 규정해 주는 헤드 부분(‘head’와 ‘/head’ 사이에 있는 부분), 문서 내용을 담은 바디(body) 부분으로 구성된다. 따라서 검색엔진이 HTML 문서를 긁어오고, 그 내용을 색인화해 데이터베이스로 저장하는 일은 그리 어려운 일이 아니다.
그보다 좀더 어려운 일은 웹 상의 ‘모든’ 문서를 찾아내는 작업이다. 검색엔진은 보통 스파이더나 로봇이라고 부르는 자동화 프로그램을 이용해 다양하게 연결된 웹 페이지를 검색하고 정보를 긁어 온다. 이때 스파이더나 로봇의 기능은 웹 페이지에 나와 있는 링크들에 의존한다. 하이퍼링크를 따라 이 페이지에서 저 페이지로 옮겨가는 것이다. 그러나 이러한 작업은, 서버 컴퓨터에 엄청나게 많은 리소스(Resources·자원)를 요구한다. 링크를 따라 긁어오고 색인화하는 정보량이 많을수록 서버의 리소스 소비도 그만큼 커진다. 그러다 보니 검색엔진들은 종종 특정 웹 사이트들로부터 추출하고 색인화할 수 있는 페이지 규모를 제한한다. 검색엔진들에 포착되지 않는 웹 페이지, 이른바 ‘보이지 않는 웹’의 일부는 이 때문에 발생한다. 근래 들어 몇몇 주요 검색엔진들이 로봇의 색인화 기능을 대폭 강화하고 있지만 문제는 여전히 남는다. 중복된 정보와 스팸(Spam·대량의 상업용 이메일)이 너무나 많은 것. 검색엔진인 잉크토미와 알타비스타가 축적한 웹의 정보량은 대략 12억~15억 페이지. 각기 ‘세계 최대’라고 주장하는, 엄청난 규모다. 그러나 이중 중복된 정보나 스팸 정보, 공백 페이지 등을 빼면 3억5000만~5억 페이지에 지나지 않는다. 문제는 이 숫자에서, 뻔히 웹을 통해 볼 수 있는데도 검색엔진에는 잡히지 않는 정보가 제외돼 있다는 사실이다. 바로 ‘보이지 않는 웹’이다.
왜 이런 일이 일어날까. 가장 기본적으로는 해당 웹 사이트에 검색엔진이 추적할 수 있는 링크가 없기 때문이다. 또는 해당 웹 사이트가 그래픽, CGI 스크립트, 마크로미디어 플래시, PDF 파일 등 검색엔진이 색인화할 수 없는 형식의 데이터를 담고 있기 때문이다.
그러나 그보다 더 방대한 규모를 차지하는 ‘보이지 않는 웹’은 바로 ‘데이터베이스에 저장된 정보’들이다. 검색엔진의 스파이더나 로봇이 이런 데이터베이스와 마주치는 것은, 마치 튼튼하게 빗장이 질러진 대형 도서관에 들어가려는 것과 같다. 이 도서관의 주소를 알 수는 있지만, 정작 그 안에 저장된 책이나 잡지, 문서 등에 대해서는 아무런 정보도 줄 수 없는 것이다. 웹에는 이같은 데이터베이스 정보가 수천~수백만 개 있을 것으로 추정된다. 이들 정보에 접근하려면 일반 검색엔진 대신 이용자 자신이 직접 해당 웹 사이트를 방문해야 한다. 이들 데이터베이스 사이트는 제각기 해당 정보만을 검색할 수 있는 자체 서비스를 갖추고 있다.
최근 들어 이같은 ‘보이지 않는 웹’을 효과적으로 찾아내려는 시도가 활발하다. 여느 웹 사이트 정보와 달리, 일반 검색엔진의 그물에 걸리지 않았던 이들 정보 중에는 고급스러운 것들이 유난히 많기 때문이다. 미국 조지 워싱턴 대학에 있는 겔먼(Gelman) 도서관의 참고 사서(Reference Librarian)인 게리 프라이스씨는 온라인 데이터베이스와 다른 고급 검색자원에 관한 한 최고의 전문가로 꼽힌다. 그는 인터넷 상의 방대한 ‘보이지 않는 웹’ 관련 정보를 ‘다이렉트 서치’라는 이름으로 잘 정리해 두었다(http://gwis2.circ. gwu.edu/~gprice/direct.htm). 여느 검색엔진의 그물망에는 걸리지 않지만, 일단 찾아내면 쓸모가 매우 큰 고급 정보들이다. “전문적인 검색사든 일반적인 인터넷 이용자든, 적절한 검색 도구를 썼더라면 훨씬 더 쉽고 정확하게 찾을 수 있었을 정보를 실제로는 놓치고 있을지도 모른다는 점을 늘 고려해야 한다”라고 프라이스씨는 말한다. 그가 권하는 몇 가지 ‘특별한’ 검색엔진을 더 소개하면 다음과 같다.
▲10K Wizard(www.tenkwizard. com): 미 증권거래소에 등록된 6만8000개 이상의 기업들에 대한 정보를 제공한다.
▲wwdyn.mercurycenter. com/ business/moneytree/ 프라이스워터하우스쿠퍼스의 ‘벤처 캐피털에 대한 머니 트리 서베이’ 결과 제공
▲스피치봇(speechbot.research. compaq.com): 컴팩이 진행중인 ‘음성’ 검색엔진. 음성인식 기술을 이용, 미국내 4670개 라디오 프로그램으로부터 색인화한 4170시간 분량의 음성 컨텐트를 검색할 수 있게 해준다.
▲인비저블웹(www.invisibleweb. com): 이름 그대로, 여느 검색엔진으로는 찾을 수 없는, 보석 같은 정보를 알려주는 틈새 검색엔진이다. 전문 서퍼들이 직접 웹 사이트들을 뒤져 만든 우량 검색 사이트.
▲알파서치(www.calvin.edu/ㅋ library/searreso/internet/as/): 특정 주제에 초점을 맞춘 웹 사이트들만을 모아 정리한 검색엔진. 캘빈 대학의 헤크먼 도서관에서 개발-운영중이다.
▲더 빅 허브(www.thebighub. com): 300여개의 카테고리, 1500여개의 주제로 나눈 디렉토리 서비스. 야후나 라이코스 같은 ‘주류(主流) 검색엔진들과는 또 다른 정보를 준다.
▲인포마인 다중 데이터베이스 검색엔진(http://infomine.ucr.edu/search. phtml): 학술적 성격이 강한 검색엔진. 다양한 학술 논문과 출처, 전자 저널, 서적, 온라인 도서관 카탈로그, 연구원 디렉토리 등을 담고 있다.
▲웹데이터(www.webdata.com): 일종의 데이터베이스 포털이다. 온라인 데이터베이스에 대한 정보만을 특화해 모으고 분류해 두었다.
물론 이들 틈새 검색엔진이 궁극적인 해답이 될 수는 없다. 결국은 무엇을 찾는지에 따라, 적절한 검색 도구와 수단을 상호 보완적으로 활용하는 것이 최선의 선택이 될 것이다.