데이터 과학은 또 하나의 석유 발견

[GETTYIMAGES]

한국은 집단이나 단체의 대표자를 뽑을 때 주로 선거라는 방식의 의사결정 절차에 따라 투표를 한다. 아마 투표에 참여한 대다수는 선거 결과에 관심을 두고 지켜볼 것이다. 혹시 차기 대통령이나 국회의원을 미리 알 수 있다면 여러 가지 재미있는 시도도 가능할 텐데, 그렇다면 선거 결과를 예측할 방법이 있을까. 사실 이를 위한 시도들은 오래전부터 있었다. 한 가지 방법은 사회 구성원 전체의 다양한 의견 가운데 대다수의 지지를 받는 여론을 조사하는 것이다. 물론 모두의 의견을 들어볼 수는 없는 노릇이기에 어느 정도 조사 목적에 맞게 표본을 추출해야 한다. 최근까지도 여론조사는 꾸준히 추진되고 있으며, 공개된 조사 결과에 따라 몇몇 후보의 희비가 끊임없이 엇갈리곤 한다. 이 방법은 오랫동안 꽤 높은 적중률을 보이며 자리를 잡았다. 가끔 걸려오는 녹음된 목소리가 귀찮기는 하지만 여전히 결과가 흥미롭긴 하다. 시간이 흘러 우리에겐 또 다른 방법도 등장했다.

2008년 미국 대선에서 버락 오바마는 바로 이 방법에서 자신의 경쟁자들보다 꾸준히 앞선 결과를 받았고, 결국 대통령에 당선했다. 바로 구글 검색량이다. 사용자가 검색한 데이터는 이미 매우 중요한 정보로 취급되고 있다. 온라인 쇼핑몰에서는 고객들이 어떤 제품을 검색했는지 분석해 취향을 파악하고 추천 상품을 표시하기도 한다. SNS(소셜네트워크서비스) 또한 검색하거나 자주 눌러본 정보를 토대로 맞춤형 광고를 자동으로 제공한다. 이러한 데이터 활용이 대선까지 확장된 것이다. 마치 관심 있는 물품처럼 가장 많이 검색된 대선 후보가 실제로 당선한 사례를 보면 놀라울 뿐이다.

데이터가 갖는 저력을 확실하게 깨달은 오바마는 대선이 종료된 후에도 데이터를 분석하는 팀을 해체하지 않고, 오히려 규모를 5배 이상 늘렸다. 지지자들을 정밀하게 분석해 꾸준히 원하는 가치를 제공하고자 노력했고, 유권자들의 출신과 성향을 세밀히 파악해 선거운동에 적극 활용했다. 단순한 e메일 선거자료라 해도 그대로 문장을 복사해 첨부하는 것이 아니라, 여러 단계로 차별화된 내용을 발송하는 일종의 개인별 맞춤형 선거운동이었다. 예를 들어 환경운동에 관심 많은 유권자에게는 이번 정권에서 추진하고자 하는 에너지정책에 관한 이야기를 담았고, 반려동물을 아끼는 유권자라면 자신이 키우는 개의 이야기 같은 개인적인 감성을 e메일 내용에 포함했다. 우리가 모두 알고 있는 결과이긴 하지만, 그렇게 오바마는 재선에서 승리했다. 그는 자신의 승리가 어디서 강한 추진력을 얻었는지 빠르게 깨닫고 과감히 실행했다. 어쩌면 이건 데이터 승리이기도 하다.

무의미하게 수집된 데이터마저 중요해진 이유

어떤 대선 후보를 얼마나 많은 사람이 검색했는지만 파악해도 선거 결과를 알 수 있다면 놀라울 따름이다. 2016년 미국 대선 당시 많은 여론조사에서 힐러리 클린턴 후보가 앞선 것처럼 보였으나, 구글 검색량은 도널드 트럼프 전 대통령이 많았다. 여러 사람의 시간과 노력이 들어간 여론조사보다 데이터가 더 정확한 결과를 나타낸다는 건 어떤 의미일까. 과연 여기에 활용되는 데이터 과학의 정체는 도대체 무엇이며, 원리를 어떻게 설명할 수 있을까.

한편으론 이런 이야기도 있다. 고작 수천 명 남짓 표본을 선정해 조사하는 방식이 틀리는 건 당연한 결과이며, 훨씬 많은 데이터가 있어야 더욱 정확한 예측이 가능하다는 것이다. 물론 검색 목적이나 오차의 한계, 신뢰 수준 등이 포함되지 않은 데이터 검색량만으로는 부족한 부분이 많다. 사실 힐러리와 트럼프가 접전을 벌인 미국 대선 역시 힐러리가 다수표를 얻었지만, 선거인단 수가 부족해 당선하지 못했을 뿐이다. 검색량처럼 트럼프의 압도적 승리라고 보기엔 어려움이 있다는 말이다.

미국 메이저리그의 데이터 중심 경영 스토리가 펼쳐지는 영화 ‘머니볼’. [사진 제공 · 한국소니픽쳐스리리징브에나비스타영화(주)]

제84회 미국 아카데미 시상식에서 6개 부문에 후보로 오른 ‘머니볼’이라는 영화가 있다. 실화를 바탕으로 한 작품이라 더욱 주목받았는데, 미국과 캐나다의 프로야구 리그에서 빌리 빈 오클랜드 애슬레틱스 단장을 중심으로 이야기가 진행된다. 돈이 없는 구단이다 보니 실력 있는 선수들은 다른 구단에 빼앗기고 늘 순위는 심해를 맴도는 상황에서 데이터를 중심으로 효율적인 경영을 통해 위기를 극복하는 내용이다. 여기서도 역시 데이터의 중요성이 빛을 발한다. 당연히 부유한 구단은 좋은 선수들을 다 가져갈 테고, 그렇다고 모든 것을 포기해버리면 결코 경기에서 승리할 수 없다. 따라서 실제 능력보다 고평가된 선수를 다른 구단에 보내고, 저평가된 선수들을 데려와야 한다. 이를 위해서는 매우 정교하고 새로운 평가 기준이 필요하며, 여기에 가장 큰 영향력을 발휘하는 것이 바로 데이터다. 단순히 어떤 능력에 무조건 최상위 가치를 부여해 가장 비싼 금액으로 계약을 하는 것이 아니라, 계량화된 통계자료를 바탕으로 상황을 분석하고 어떤 데이터가 가치 있는지 끊임없이 고민한다.

현재 데이터의 의미는 ‘머니볼’의 배경인 2002년이나 영화가 개봉한 2011년과 비교해도 상당 부분 달라졌다. 과거엔 데이터를 이야기하는 과정에서 정보라는 용어가 주로 사용됐는데, 이는 수많은 데이터 가운데 사용자에게 유의미한 데이터만 따로 모아둔 것이다. 유의미한 데이터를 걸러내고 가치를 판단하는 작업을 사람이 했고, 이를 통해 선별된 데이터만 컴퓨터에 제공했다. 하지만 컴퓨터와 소프트웨어 성능이 발전하면서 이제 데이터로부터 정보를 추출하는 작업까지 인공지능이 직접 하고 있다. 어쩌면 상식선에서 어느 정도 연결된 데이터만 분석한 결과는 식상할 수도 있다. 하지만 전혀 상관없어 보이는 데이터까지 모두 분석했을 때 예상치 못한 새로운 인과관계를 발견할 수 있을지도 모른다. 결국 무의미하게 수집된 데이터도 새로운 시각으로 보면 충분히 쓸모 있는 경우가 생길 수 있다.

우리 삶 곳곳에 유의미한 데이터

데이터는 의학과 공학, 사회학, 인문학, 생물학 등에서 폭넓게 사용된다. [GETTYIMAGES]

데이터 과학은 컴퓨터 과학과 통계학이 극적으로 융합하며 다양한 분야에 연결되는 학문이다. 우선 일반 통계학은 이론을 바탕으로 확보한 데이터를 분석하는 방법론에 초점을 맞춘다는 점에서 다소 차이가 있다. 데이터 과학은 주로 효율적인 데이터의 저장 및 분석이 중요하지만, 데이터 과학을 본격적으로 하려면 태생적 한계를 이해하기 위해 통계학을 반드시 배워야 한다. 구체적인 데이터 내용을 다루는 것으로 한정한다면 해결 가능한 영역도 단순화될 수 있겠지만, 오히려 데이터 과학은 전혀 다른 내용이나 형식의 데이터 속에 공통으로 존재하는 성질을 분석하고 다룬다. 쉽게 말해 기존 번역이 ‘she’나 ‘he’가 여성과 남성을 뜻한다는 개념에서 시작했다면, 데이터를 이용한 인공지능 번역은 ‘queen’과 ‘king’ 사이 관계에 주목한다. 두 단어 사이에서 남성성이나 여성성의 의미는 이해하지 못하지만, 그저 어떤 단계나 방향으로 이동할 때 무엇이 변해야 하는지를 알고 제대로 번역된 결과를 내놓는 것이다. 이미 이러한 데이터는 의학이나 공학처럼 우리에게 밀접한 학문 분야뿐 아니라, 생물학, 사회학, 인문학 등에서도 활발하게 사용되고 있다.

최근 온라인 동영상 서비스 가입자가 수억 명을 돌파하고 있고, 꾸준히 새로운 플랫폼이 등장하는 추세다. 누워서 리모컨으로 새로운 신작 콘텐츠를 지켜보는 행위가 데이터 과학과 어떤 관계일지 의문이 들 수도 있다. 하지만 놀랍게도 이들은 데이터 과학의 미래를 보여주는 가장 혁신적 사례다. 데이터 과학이 얻어낼 수 있는 소비자 취향이 가장 확고하게 드러나는 곳이 바로 영상 플랫폼이다. 심지어 소비자의 지역, 나이, 성별, 시청 기기, 빨리 감기 여부, 미디어 취향 등의 개인적인 데이터 또한 넘쳐난다. 쏟아지는 데이터 속에서 이를 분석하고, 인공지능이 학습한 뒤 새로운 통계자료를 얻어 통합한다면 기하급수적으로 비즈니스도 성장할 수 있다. 나 자신보다 나를 더 잘 아는 데이터는 내가 반드시 다음에 누를 수밖에 없는 콘텐츠를 제안하고, 이를 통해 멈추지 않고 끊임없이 영상을 시청하는 굴레에 빠지게 만든다. 개인별 맞춤형으로 완벽하게 큐레이션된 영상에서 가장 중요한 것은 결국 데이터이며, 여기에 예산을 투입해 정교한 기술을 확보한 기업은 이미 그 혜택을 톡톡히 보고 있다.

새로운 시대, 데이터야말로 부(富)를 가져올 수 있는 원유라고 주장하는 사람도 늘고 있다. 과거 원유를 정제해 우리에게 꼭 필요한 원료를 얻는 것처럼, 데이터를 제대로 정제하고 활용할 수 있는 기술을 확보해야 우리에게 필요한 가치를 만들어낼 수 있다는 말이다. 이미 원유라 할 수 있는 데이터는 넘쳐난다. 현재 인류가 보유한 디지털 정보는 얇은 태블릿PC에 저장한 뒤 쌓아도 지구와 달을 7번 이상 왕복할 수 있다. 원유가 나오는 나라는 지역적 운에 따라 정해져 있지만, 새롭게 등장한 원유는 누구나 퍼갈 수 있는 감사한 존재이기도 하다. 이를 통해 수많은 새로운 직업이 탄생하고 있고, 새로운 전문가와 기업의 등장이 기존 산업 패러다임을 송두리째 바꿔놓을지도 모른다는 기대도 가득하다.

미래 사업 판도를 바꾸는 데이터 과학

데이터 과학이 얻어낼 수 있는 소비자 취향이 가장 확고하게 드러나는 곳은 영상 플랫폼이다. [GETTYIMAGES]

물론 데이터 과학이 전지전능하다는 건 아니다. 오히려 너무 많은 영역에서 데이터 과학에 대한 기대치가 터무니없이 높아졌다는 위기감도 있다. 특히 코로나19 사태를 경험하다 보니 어떤 환경보다 빠르게 변화하는 조건에서 신속하게 결과를 도출하고 공유했다. 이는 데이터의 뛰어난 역량과 분명한 한계를 대중에게 드러냈다. 어떤 기술보다 빠르게 안정적인 결과를 가져왔지만, 기본 가정이 계속 바뀌는 바람에 들어맞지 않는 상황에서 검증 없이 생성된 모델들은 데이터 과학의 신뢰도를 떨어뜨리기도 했다. 과거 경험이 미래에 그대로 일어나는 경우를 언제나 가정하지만, 여전히 데이터는 과거 산물일 뿐이다. 특히 코로나19 팬데믹처럼 한 번도 재연된 적 없는 과거는 결코 쉽게 예측할 수 없다. 넘쳐나는 데이터로 할 수 있는 일과 그렇지 못한 과제를 명확히 구분해야 하며, 이를 통해 더 나은 다음 단계로 나아가야 한다. 또한 무조건 뛰어난 예측이 가능하다고 환호하기보다 데이터 자체가 권력이 되는 상황도 고민해야 한다. 어쩌면 예측 불가능하다는 현실로 인한 어려움보다 더 막대한 위기와 양극화가 시작될지 모른다. 아쉽게도 데이터 과학은 한계가 많고, 개발자이자 사용자인 인류 역시 마찬가지다. 물론 자연에서 패턴을 찾아내는 과학적 사고는 여전히 중요하며, 예측 역시 반드시 맞혀야 하는 예언이 아니기에 의미가 있다. 우리가 여기에 익숙해질수록 세상은 더 유용한 도구를 갖게 된다. 적어도 허무맹랑한 연금술은 아니다.

_궤도는…_{연세대 천문우주학과 학부 및 대학원을 졸업하고 한국천문연구원 우주감시센터와 연세대 우주비행제어연구실에서 근무했다. ‘궤도’라는 예명으로 팟캐스트 ‘과장창’, 유튜브 ‘안될과학’과 ‘투머치사이언스’를 진행 중이며, 저서로는 ‘궤도의 과학 허세’가 있다.}