주간동아 480

2005.04.12

정보 금맥 캐내는 ‘데이터 마이닝’

산더미 데이터 속 알짜 정보 분석 … 신용카드 부정사용 방지·소비자 성향 파악 등 전방위 활용

  • 김홍재/ 사이언스타임즈 기자 ecos@ksf.or.kr

    입력2005-04-08 11:00:00

  • 글자크기 설정 닫기
    정보 금맥 캐내는 ‘데이터 마이닝’
    3월26일 회사원 임모(26·여) 씨는 신용카드사로부터 카드 사용과 관련된 전화를 받았다. “서울 동대문구 장안동의 한 퇴폐이발소에서 9만원이 결제됐는데 사용한 게 맞느냐”는 물음이었다. 임 씨는 카드를 잠시 남동생에게 빌려줬다고 카드사에 얘기해줬다.

    남동생의 인상착의를 들은 카드사는 이번엔 이발소에 연락해 카드 사용자가 동일인인지를 확인했다. 그런데 다른 사람이 사용했다는 사실이 밝혀지자 카드사는 곧바로 경찰에 신고했다. 수사에 나선 경찰은 임 씨 남동생이 잠든 사이 직장 동료인 유모 씨가 카드를 훔쳐 퇴폐이발소에서 사용했다는 사실을 밝혀냈다.

    남의 카드를 훔치거나 주워서 함부로 사용하다간 큰코다치는 세상이 됐다. 신용카드사들이 소비자의 소비 행태를 유형별로 분석하고 있다가 평소와 다른 매출이 발생하면 바로 알려주는 부정사용 방지 시스템(FDS, Fraud Detecting System)을 운영하기 때문이다.

    부정사용 방지 시스템은 데이터 마이닝(Data Mining)이라는 첨단기술이 적용된 한 예다. 데이터 마이닝이란 데이터들 사이에 숨겨져 있는 유용한 상관관계를 발견, 의사결정에 활용하는 데이터 분석기술을 가리킨다. 말 그대로 광범위한 데이터로 이뤄진 광산에서 금맥이 될 유용한 정보만 골라 캐내는(mining) 기술이다.

    통계, 인공지능 등 정보기술 총동원



    정보량이 급증하면서 데이터 마이닝의 중요성이 갈수록 빛을 발하고 있다. 데이터가 워낙 방대해져 활용하기는커녕 관리하기도 쉽지 않기 때문이다. 정보의 증가 속도는 이미 18개월마다 2배로 확장되는 컴퓨터 처리 속도의 증가세를 넘어섰고, 인터넷만 해도 웹페이지가 하루에 150만장씩 늘고 있다.

    데이터 마이닝은 단순히 키워드뿐만 아니라 유사도와 상이도, 구조적 특징 등을 분석해 광범위한 데이터들로부터 유용한 정보를 뽑아낸다. 이를 위해 데이터베이스 관리기술과 수학적 통계, 신경망, 유전자, 인공지능 등 정보기술이 총동원된다.

    데이터 마이닝이 현실에 적용된 대표적 분야가 바로 신용카드 부정사용 같은 금융거래에서의 사기 탐색이다. 신용카드 부정사용 방지 시스템은 2003년부터 한국에 도입됐는데, 부정사용액을 30% 넘게 줄인 것으로 평가받는다. 보건복지부는 2004년 10월부터 건강보험 진료비의 부정청구를 감시하는 데이터 마이닝 기법을 개발해 활용하고 있다.

    또 미국 회계감사원 자료에 따르면 연방기관의 절반이 예산과 관련된 낭비, 부정, 남용 등을 발견하기 위해 데이터 마이닝 기법을 활용하고 있다. 이외에도 보험사기, 불성실 납세자 탐색, 부동산 투기혐의자 색출 등에 응용하고 있다.

    소비자 정보를 분석해 판매를 늘리는 마케팅 분야에서도 데이터 마이닝이 활발히 응용된다. 10여년 전부터 마케팅에 데이터 마이닝이 활용됐는데, 겉보기에는 별다른 관련이 없을 것 같아 보이는 특정 데이터와 상품의 판매량이 밀접한 상관관계를 지닌다는 사실들을 밝혀냈다.

    가장 잘 알려진 예가 쇼핑센터에서 기저귀와 맥주 판매의 상호 연관성. 아내의 부탁으로 1회용 기저귀를 사러 온 남성들이 바로 옆에 맥주가 진열돼 있으면 구입할 가능성이 상당히 높다는 결과다. 실제 데이터 마이닝 기법으로 소비자 성향을 파악한 미국 월마트는 기저귀와 맥주를 함께 진열해 맥주 판매량을 크게 늘렸다.

    데이터 마이닝을 판매에 적용하는 것을 넘어서 최근엔 비디오 마이닝이란 기법까지 등장했다. 현재 미국의 쇼퍼트랙사는 갭, 바나나리퍼블릭 등의 매장과 쇼핑몰에 4만여대의 비디오카메라를 설치해놓고 방문객들의 성별, 나이, 인종, 행동을 분석하고 있다.

    데이터 마이닝은 과학기술 연구에서도 중요한 기능을 수행하고 있다. 가장 활발히 이용되는 학문이 인간게놈프로젝트 이후 기하급수적으로 정보량이 증가한 생명과학 분야. 유전자와 단백질 연구에는 방대한 데이터가 이용되기 때문에 데이터 마이닝 기술을 이용해야 효율적으로 연구를 진행할 수 있기 때문이다. 1월 한국전자통신연구원은 바이오 데이터 마이닝을 위해 임상 DNA칩 데이터와 연결된 유전자 선별기술을 세계 최초로 개발해 관심을 모으기도 했다.

    NASA도 이용 … 사생활 침해 가능성 매우 커

    천체 우주망원경으로 찍은 수많은 사진을 분석해야 하는 천문학 연구에서도 데이터 마이닝 이용이 활발하다. 미 항공우주국(NASA)에서는 천문학 연구뿐만 아니라 기후변화에 따른 지구 환경 변화를 분석하는 데도 데이터 마이닝을 개발해 활용하고 있다.

    미국 MIT 대학 미디어랩은 지식 관리와 팀 관리에 데이터 마이닝을 활용하는 방안을 모색하고 있다. 사원들에게 착용식 컴퓨터(wearable computer)를 입혀 조직 내에서 의사소통이 얼마나 효율적으로 이뤄지고 있는지, 부서를 통폐합했을 때 어느 정도의 업무 효율 증대를 얻을 수 있는지 등을 파악하는 연구다.

    미국 일리노이주립 대학에서는 2004년 10월부터 인문학에 데이터 마이닝 기술을 적용하는 연구를 진행하고 있다. 예를 들어 셰익스피어의 비극 ‘오셀로’를 이 방식으로 분석하면 희극의 특성과 일치한다는 결과가 나온다고 한다. 이런 결과는 인문학자들에게 ‘오셀로’ 극본의 어떤 면이 희극적인지를 재조명할 기회를 제공할 전망이다.

    수년 전 흥행에 성공한 스필버그 감독의 SF영화 ‘마이너리티 리포트’를 보면 앞으로 일어날 범죄를 내다보고 이를 예방하는 부서가 나온다. 데이터 마이닝이 계속 발달하면 이 같은 일들이 허무맹랑한 공상에 머물지 만은 않을 전망이다.

    실제 미국에서는 9·11테러가 발생한 후 테러를 비롯한 각종 범죄를 예방하기 위해 TIA(Total Information Awareness) 프로젝트를 진행했다. 개인과 관련된 모든 정보를 수집해 범죄 예방에 활용한다는 것. 그러나 정부가 개인의 사생활까지 정보로 다룬다는 점이 의회에서 문제로 지적돼 지원이 중단된 상태다.

    데이터 마이닝은 개인의 사생활을 침해할 가능성이 있다. 서울대 통계학과 김용대 교수는 “데이터 마이닝은 법으로 정한 테두리 안에서 적용되고 있으며, 정보 유출을 막는 장치들이 속속 개발되고 있다”고 밝히면서 “사생활 보호에 대한 대책을 마련해야 데이터 마이닝이 더욱더 유용한 기술로 발전할 수 있다”고 말했다.



    댓글 0
    닫기