주간동아 987

2015.05.11

범인 잡는 소셜네트워크

100만 개 네트워크, 100여 개 알고리즘으로 핵심 정보 추출…명탐정 뺨치는 수사력

  • 김진호 서울과학종합대학원 빅데이터 MBA 주임교수 jhkim6@assist.ac.kr

    입력2015-05-11 11:07:00

  • 글자크기 설정 닫기
    소셜네트워크는 사회학에서 개인, 집단, 사회의 관계를 네트워크로 파악하는 개념이다. 즉 개인 또는 집단은 네트워크 안에 존재하는 개별적인 노드(node·데이터 통신망에서 데이터를 전송하는 통로에 접속되는 하나 이상의 기능 단위)이며, 네트워크는 각 노드 간 상호의존적인 관계(tie)에 따라 만들어지는 연결 구조를 말한다. 소셜네트워크 분석으로 이러한 네트워크의 연결 구조와 연결 강도, 그리고 확산 과정의 패턴을 파악하면 경영전략이나 마케팅 등에 유용한 인사이트를 얻을 수 있다.

    예를 들어 이동통신사들은 요금 청구를 위해 고객의 모든 통화기록을 수집하는데, 이제는 이 데이터에서 네트워크 구조와 강도를 분석해 고객 이탈을 방지하고 신규 고객을 유치하는 마케팅 전략에 활용하고 있다. 더욱이 최근 소셜네트워크서비스(SNS) 이용이 보편화하면서 소셜네트워크에 대한 분석이 더욱 활기를 띠고 있다. SNS 데이터를 이용하면 네트워크 연결 구조와 강도뿐 아니라 연결 맥락까지 함께 분석할 수 있기 때문이다. 이번 호에서는 소셜네트워크 기법이 증권시장에서 내부거래자를 찾는 데 활용된 사례를 소개한다.

    내부정보로 주식 거래, 200배 수익

    사이먼 헤인스는 호주 매쿼리(Macqu arie)은행 부사장이었다. 매쿼리은행은 화물운송회사 TNT의 자문을 담당했는데 헤인스는 매쿼리은행을 그만두기 바로 전 TNT가 인수될 것이라는 정보를 간접적으로 입수했다. 그는 이 정보를 이용해 ‘마크 부스(Mark Booth)’라는 가명으로 TNT 주식의 콜옵션을 9만 달러어치 정도 샀다. 헤인스가 옵션을 산 이틀 후 TNT는 인수됐고, 그는 이 거래로 200만 달러가 넘는 이익을 봤다. 헤인스는 자신의 행동을 가명으로 위장했을 뿐 아니라 옵션 구매에 사용한 자금도 여러 은행에서 1만 달러 이하로 분산 인출했기 때문에 신분 노출을 피할 수 있었다. 호주증권투자위원회(ASIC) 수사관들이 그를 잡으려면 창의적인 네트워크 분석 작업이 필요했다.

    TNT 인수가 발표되기 전 사흘 동안 TNT 주식의 옵션 거래에서 비정상적인 거래가 확인됐는데, 이 거래를 한 사람들은 인수 발표 후 200배의 투자수익을 얻었다. 하지만 시장관리자들은 첫 거래자들 중 한 명을 찾아낼 수 없었다. 그래서 그들은 이 문제를 시장을 규제하는 ASIC에 맡겼다. 그 후 3개월 동안 많은 수사관이 전통적인 범죄 수사기법을 동원했지만 초기 거래의 배후에 있는 사람을 확인할 수 없었다.



    ASIC는 과거 연구와 경험을 근거로 부정거래가 사람들 사이 네트워크를 통해 이뤄진다는 것을 알았다. ASIC 수사관들은 먼저 내부와 공적 데이터베이스 안에서 개인, 회사, 주소를 시작점으로 하는 네트워크를 추출해 내부정보를 알았거나 알았을 가능성이 있는 ‘사정에 밝은 사람들’을 파악할 수 있었다. 또한 관련 지역 금융기관에 거래를 성사시킬 자금(은행계좌, 현금 등)이 있고 관련 거래 시점에 실제로 은행에서 현금 인출을 했던 ‘현금을 가진 사람들’을 뽑아낼 수 있었다. 수사관들은 이들 사이 네트워크를 분석해 사정에 밝은 사람들과 현금을 가진 사람들로부터 다섯 다리 건너 동료(사람, 회사, 주소, 그리고 자산)들을 체계적으로 수집할 수 있었다. 이 과정에서 16만 명이 넘는 사람, 회사, 주소, 자산, 그리고 현금 인출이 100만 개 연결고리를 갖는 네트워크 데이터로 확보됐다.

    중복된 데이터가 많아서 다음 단계를 분석하기 전 수사관들은 유사한 것으로 판단되는 실체들(사람, 회사, 주소, 자산)을 합쳤다. 수사관들은 이 작업을 위해 100개가 넘는 특허 알고리즘을 사용했다. 당시 이 사건의 ASIC 조사책임자 앤서니 빌(Anthony Viel)은 그 과정을 이렇게 설명한다.

    “모든 잠재적 중복 실체를 합친 후 ‘사정에 밝은 사람들’과 ‘현금을 가진 사람들’ 사이 관계를 확인하고자 최단경로 알고리즘을 사용했죠. 우리는 분석 결과를 더 다듬기 위해 그 관계를 ‘강한 연결고리(hard link)’와 ‘약한 연결고리(soft link)’로 구분했습니다. 강한 연결고리는 주소나 전화번호 등 특성이 같은 연결을 말하고, 약한 연결고리는 철자나 동일한 발음 등에서 유사성이 높은 연결을 의미합니다. 첫 번째 분석에서 우리는 세 다리 건너의 강한 연결고리와 약한 연결고리를 갖는 잠재적인 65명을 파악했죠. 두 번째 분석에서는 네 다리 건너까지 강한 연결고리만 갖는 2명을 파악했습니다. 그중 한 사람은 데이터가 잘못 합쳐져 생긴 허위 인물이었어요. 다른 한 사람이 바로 관심 대상임이 확인됐죠.”

    데이터 특성에 맞는 분석력이 좌우

    ASIC는 네트워크 분석을 통해 관심 대상으로 확인된 헤인스에 대한 영장을 발부받아 수색했다. 그의 집에서 유죄를 입증할 수 있는 여러 증거가 발견됐고, 그는 몇 개의 연관 범죄로 기소됐다. 그는 배심원 재판에서 유죄판결을 받았고, 항소심에서도 유죄판결이 유지됐다. 그는 감옥에서 2년 2개월을 복역했으며, 벌금 11만 달러가 부과됐고, 내부거래로 얻은 수익도 몰수됐다.

    빅데이터는 새로운 원유와 같다. 원유가 정유 과정을 거쳐야만 가솔린, 플라스틱 같은 다양한 물질로 변하듯이, 빅데이터도 분석 과정을 통해서만 새로운 가치를 뽑아낼 수 있다. 하지만 빅데이터 분석은 그 엄청난 크기 때문이 아니라 실제로는 데이터의 구조화가 부족하기 때문에 어렵다. 빅데이터 대부분(80~90%)이 행과 열로 된 표 속에 쉽게 정리할 수 없는 네트워크, 텍스트, 동영상, 사진, 음악 등 비정형 데이터이기 때문이다. 하지만 네트워크 데이터는 소셜네트워크 분석의 빠른 발전으로, 텍스트는 소셜미디어 분석의 비약적인 성장으로 낮은 구조화의 한계를 잘 극복하고 있다. 또한 음성이나 영상 데이터 분석에서도 시리(Siri)나 스카이박스이미징의 사례에서 볼 수 있듯 지속적인 발전이 이뤄지고 있다.

    빅데이터 분석 기법이 빅데이터가 가진 구조화의 한계를 점차 극복함에 따라 빅데이터가 거의 모든 산업과 경영에 미치는 영향은 더욱 커질 수밖에 없다. 이제 빅데이터에서 중요한 건 빅도 아니고 데이터도 아니다. 데이터 특성에 맞는 분석을 통해 인사이트를 얼마나 잘 추출하고, 그것을 경영전략이나 의사결정에 얼마나 적절히 활용하느냐 하는 점이다.



    댓글 0
    닫기