[GETTYIMAGES]
2008년 미국 대선에서 버락 오바마는 바로 이 방법에서 자신의 경쟁자들보다 꾸준히 앞선 결과를 받았고, 결국 대통령에 당선했다. 바로 구글 검색량이다. 사용자가 검색한 데이터는 이미 매우 중요한 정보로 취급되고 있다. 온라인 쇼핑몰에서는 고객들이 어떤 제품을 검색했는지 분석해 취향을 파악하고 추천 상품을 표시하기도 한다. SNS(소셜네트워크서비스) 또한 검색하거나 자주 눌러본 정보를 토대로 맞춤형 광고를 자동으로 제공한다. 이러한 데이터 활용이 대선까지 확장된 것이다. 마치 관심 있는 물품처럼 가장 많이 검색된 대선 후보가 실제로 당선한 사례를 보면 놀라울 뿐이다.
데이터가 갖는 저력을 확실하게 깨달은 오바마는 대선이 종료된 후에도 데이터를 분석하는 팀을 해체하지 않고, 오히려 규모를 5배 이상 늘렸다. 지지자들을 정밀하게 분석해 꾸준히 원하는 가치를 제공하고자 노력했고, 유권자들의 출신과 성향을 세밀히 파악해 선거운동에 적극 활용했다. 단순한 e메일 선거자료라 해도 그대로 문장을 복사해 첨부하는 것이 아니라, 여러 단계로 차별화된 내용을 발송하는 일종의 개인별 맞춤형 선거운동이었다. 예를 들어 환경운동에 관심 많은 유권자에게는 이번 정권에서 추진하고자 하는 에너지정책에 관한 이야기를 담았고, 반려동물을 아끼는 유권자라면 자신이 키우는 개의 이야기 같은 개인적인 감성을 e메일 내용에 포함했다. 우리가 모두 알고 있는 결과이긴 하지만, 그렇게 오바마는 재선에서 승리했다. 그는 자신의 승리가 어디서 강한 추진력을 얻었는지 빠르게 깨닫고 과감히 실행했다. 어쩌면 이건 데이터 승리이기도 하다.
무의미하게 수집된 데이터마저 중요해진 이유
어떤 대선 후보를 얼마나 많은 사람이 검색했는지만 파악해도 선거 결과를 알 수 있다면 놀라울 따름이다. 2016년 미국 대선 당시 많은 여론조사에서 힐러리 클린턴 후보가 앞선 것처럼 보였으나, 구글 검색량은 도널드 트럼프 전 대통령이 많았다. 여러 사람의 시간과 노력이 들어간 여론조사보다 데이터가 더 정확한 결과를 나타낸다는 건 어떤 의미일까. 과연 여기에 활용되는 데이터 과학의 정체는 도대체 무엇이며, 원리를 어떻게 설명할 수 있을까.한편으론 이런 이야기도 있다. 고작 수천 명 남짓 표본을 선정해 조사하는 방식이 틀리는 건 당연한 결과이며, 훨씬 많은 데이터가 있어야 더욱 정확한 예측이 가능하다는 것이다. 물론 검색 목적이나 오차의 한계, 신뢰 수준 등이 포함되지 않은 데이터 검색량만으로는 부족한 부분이 많다. 사실 힐러리와 트럼프가 접전을 벌인 미국 대선 역시 힐러리가 다수표를 얻었지만, 선거인단 수가 부족해 당선하지 못했을 뿐이다. 검색량처럼 트럼프의 압도적 승리라고 보기엔 어려움이 있다는 말이다.
미국 메이저리그의 데이터 중심 경영 스토리가 펼쳐지는 영화 ‘머니볼’. [사진 제공 · 한국소니픽쳐스리리징브에나비스타영화(주)]
현재 데이터의 의미는 ‘머니볼’의 배경인 2002년이나 영화가 개봉한 2011년과 비교해도 상당 부분 달라졌다. 과거엔 데이터를 이야기하는 과정에서 정보라는 용어가 주로 사용됐는데, 이는 수많은 데이터 가운데 사용자에게 유의미한 데이터만 따로 모아둔 것이다. 유의미한 데이터를 걸러내고 가치를 판단하는 작업을 사람이 했고, 이를 통해 선별된 데이터만 컴퓨터에 제공했다. 하지만 컴퓨터와 소프트웨어 성능이 발전하면서 이제 데이터로부터 정보를 추출하는 작업까지 인공지능이 직접 하고 있다. 어쩌면 상식선에서 어느 정도 연결된 데이터만 분석한 결과는 식상할 수도 있다. 하지만 전혀 상관없어 보이는 데이터까지 모두 분석했을 때 예상치 못한 새로운 인과관계를 발견할 수 있을지도 모른다. 결국 무의미하게 수집된 데이터도 새로운 시각으로 보면 충분히 쓸모 있는 경우가 생길 수 있다.
우리 삶 곳곳에 유의미한 데이터
데이터는 의학과 공학, 사회학, 인문학, 생물학 등에서 폭넓게 사용된다. [GETTYIMAGES]
최근 온라인 동영상 서비스 가입자가 수억 명을 돌파하고 있고, 꾸준히 새로운 플랫폼이 등장하는 추세다. 누워서 리모컨으로 새로운 신작 콘텐츠를 지켜보는 행위가 데이터 과학과 어떤 관계일지 의문이 들 수도 있다. 하지만 놀랍게도 이들은 데이터 과학의 미래를 보여주는 가장 혁신적 사례다. 데이터 과학이 얻어낼 수 있는 소비자 취향이 가장 확고하게 드러나는 곳이 바로 영상 플랫폼이다. 심지어 소비자의 지역, 나이, 성별, 시청 기기, 빨리 감기 여부, 미디어 취향 등의 개인적인 데이터 또한 넘쳐난다. 쏟아지는 데이터 속에서 이를 분석하고, 인공지능이 학습한 뒤 새로운 통계자료를 얻어 통합한다면 기하급수적으로 비즈니스도 성장할 수 있다. 나 자신보다 나를 더 잘 아는 데이터는 내가 반드시 다음에 누를 수밖에 없는 콘텐츠를 제안하고, 이를 통해 멈추지 않고 끊임없이 영상을 시청하는 굴레에 빠지게 만든다. 개인별 맞춤형으로 완벽하게 큐레이션된 영상에서 가장 중요한 것은 결국 데이터이며, 여기에 예산을 투입해 정교한 기술을 확보한 기업은 이미 그 혜택을 톡톡히 보고 있다.
새로운 시대, 데이터야말로 부(富)를 가져올 수 있는 원유라고 주장하는 사람도 늘고 있다. 과거 원유를 정제해 우리에게 꼭 필요한 원료를 얻는 것처럼, 데이터를 제대로 정제하고 활용할 수 있는 기술을 확보해야 우리에게 필요한 가치를 만들어낼 수 있다는 말이다. 이미 원유라 할 수 있는 데이터는 넘쳐난다. 현재 인류가 보유한 디지털 정보는 얇은 태블릿PC에 저장한 뒤 쌓아도 지구와 달을 7번 이상 왕복할 수 있다. 원유가 나오는 나라는 지역적 운에 따라 정해져 있지만, 새롭게 등장한 원유는 누구나 퍼갈 수 있는 감사한 존재이기도 하다. 이를 통해 수많은 새로운 직업이 탄생하고 있고, 새로운 전문가와 기업의 등장이 기존 산업 패러다임을 송두리째 바꿔놓을지도 모른다는 기대도 가득하다.
미래 사업 판도를 바꾸는 데이터 과학
데이터 과학이 얻어낼 수 있는 소비자 취향이 가장 확고하게 드러나는 곳은 영상 플랫폼이다. [GETTYIMAGES]
궤도는… 연세대 천문우주학과 학부 및 대학원을 졸업하고 한국천문연구원 우주감시센터와 연세대 우주비행제어연구실에서 근무했다. ‘궤도’라는 예명으로 팟캐스트 ‘과장창’, 유튜브 ‘안될과학’과 ‘투머치사이언스’를 진행 중이며, 저서로는 ‘궤도의 과학 허세’가 있다.