주간동아 1057

2016.10.05

김창환의 통계 인사이트

美 대선 예측, 백가쟁명의 이유

학자마다 가중치 개발해 당선인 점치는 정보 엔터테인먼트 시대

  • 미국 캔자스대 사회학과 교수 chkim.ku@gmail.com

    입력2016-09-30 17:07:36

  • 글자크기 설정 닫기
    11월 8일은 미국 대통령선거(대선)가 있는 날이다. 미국 대선 결과는 미국인뿐 아니라 세계 많은 국가에게도 심대한 영향을 끼친다. 미국과 전략적 동맹관계를 맺고 있는 한국은 말할 필요도 없다. 특히 공화당 도널드 트럼프 대선후보는 한국에 주한미군 주둔비 인상과 자유무역협정(FTA) 변경을 요구하고 있다. 트럼프가 대통령이 된다면 미국 국내 정치뿐 아니라 국제관계에도 많은 변화가 있을 것이다.

    필자가 이 글을 쓰고 있는 9월 27일 오전 현재, 지난 대선과 상원의원 선거를 정확히 예측해 유명해진 네이트 실버가 운영하는 ‘파이브서티에이트(FiveThirtyEight)’는 민주당 힐러리 클린턴 대선후보의 승리 확률을 55.5%로 예측했다. 트럼프의 승리 확률은 44.5%라고 내다봤다. 9월 26일 오전 발표된 전국 선거 여론조사 결과 6개 가운데 2개는 클린턴이 1%p 앞서는 것으로, 3개는 트럼프가 1~4%p 앞서는 것으로, 나머지 하나는 지지율이 같은 것으로 나왔다.



    들쑥날쑥 헷갈리는 예측

    전문가들 예상과 달리 트럼프가 공화당 대선후보가 된 것도 놀라운데, 선거 결과 예측도 들쑥날쑥하다. 네이트 실버는 이번 선거를 예측 불가의 접전이라고 했지만, ‘뉴욕타임스’의 선거 예측 시스템 ‘업숏(Upshot)’은 클린턴의 승리 확률 69%, 트럼프의 승리 확률 31%라고 보도했다. 2004년 이후 꾸준히 선거 예측을 해온 새뮤얼 왕 미국 프린스턴대 교수도 클린턴의 승리 확률이 69%라고 추정한다. 1980년 이후 모든 대선을 정확히 예측해온 ‘무디스의 선거 예측(Moody’s Analytics)’ 역시 클린턴의 승리를 예상했다.

    반면 다른 모델은 트럼프가 승리하리라고 내다봤다. 1984년 이후 13개 변수를 이용해 모든 대선 결과를 정확히 예측해온 앨런 릭트먼 미국 아메리칸대 교수는 트럼프가 승리할 것이라고 전망했다. 릭트먼 교수는 한 달 전까지만 해도 선거 예측에 조심스러워했고, 트럼프의 승리는 재앙이 되리라고 주장한 바도 있다. 그런 그가 트럼프의 승리를 전망한 것이다. 버지니아대 정치학센터의 예측도 트럼프가 근소한 차이로 승리하는 것으로 나왔다.



    어느 쪽이 맞을까. 실망스러워할 독자도 있겠지만, 선거 결과가 어떨지는 필자도 모른다. 이 글의 주제는 선거 결과 예측이 아니라, 선거 예측에 이처럼 차이가 나는 이유를 살펴보는 것이다.

    미국의 선거 예측 모델은 크게 두 가지다. 하나는 선거 여론조사 결과의 가중평균으로 후보별 당선 확률을 추정하는 모델이고, 다른 하나는 여론조사가 아닌 정치·경제·사회적 변수를 이용해 당선 후보를 전망하는 모델이다. 선거 여론조사에 기반을 둔 예측은 대부분 클린턴의 승리를 점친다. 하지만 승리 확률은 모델별로 상당한 격차가 있다.

    한국에서는 보통 단일한 여론조사 결과를 바탕으로 후보별 선거 지지율을 예측하고, 이것을 기반으로 삼아 당선인을 추정한다. 반면 미국에서는 여러 여론조사 결과를 가중평균해 당선 확률을 계산하는 방법을 보편적으로 이용한다. 한국에서도 지난 대선 때 박종희 서울대 교수가 여러 여론조사를 종합해 당선인 득표율을 정확히 예측한 바 있다. 이러한 방법은 두 가지를 추정한다. 하나는 예상 득표율이고, 다른 하나는 당선 확률이다. 클린턴의 승리 확률이 55%라는 것은 그가 55% 지지율로 승리한다는 뜻이 아니라, 여론조사를 종합해본 결과 1%p 격차든 10%p 격차든 이번 대선에서 클린턴이 승리할 확률이 55%라는 것이다. 단일 여론조사를 사용하는 것보다 이처럼 여러 여론조사를 종합해 예측하는 것이 정확도가 높다.

    문제는 똑같은 여론조사 자료를 사용해도 조사기관에 따라 후보별 당선 확률이 달라진다는 점이다. 한 실험 결과에 따르면 정확히 같은 원자료로 5개 기관에서 지지율을 추정했는데, 한 기관은 트럼프의 1%p 우세를 점친 반면, 다른 기관은 클린턴의 4%p 우세를 예상했다. 이 조사에 참여한 5개 기관이 모두 다른 결과를 냈다. 이렇게 결과가 달라지는 이유는 원자료에 부여하는 가중치가 서로 다르기 때문이다. 어떻게 가중치를 줄 것인지가 바로 선거 예측 전문가의 노하우다. 선거는 단순 여론조사와 달리 지지 의향뿐 아니라 투표 행위도 예측해야 한다. 누가 투표 의향자인지 가려내는 데 표준화된 방법론은 없다.

    미국 선거는 주별로 승리한 후보가 해당 주의 투표인단을 독식하는 구조라 전국 지지율뿐 아니라 주별 지지율도 측정해야 한다. 주별로 여론조사 날짜가 다른데, 전국 지지율의 변화와 주별 지지율의 변화를 연동하느냐 그렇지 않느냐에 따라 당선 예측 후보와 지지율이 달라진다. 네이트 실버의 파이브서티에이트와 ‘뉴욕타임스’의 업숏 결과가 서로 다른 중요한 이유가 여기 있다.

    트럼프가 이길 것이라는 예측은 대부분 여론조사가 아닌 정치·경제·사회적 변수를 이용해 선거 결과를 모델링한 경우에서 나왔다. 트럼프가 승리하리라고 예측한 릭트먼 교수의 13개 변수 모델은 각 변수에 대한 릭트먼 교수의 판단에 따라 결과가 달라진다. 객관적 지표의 종합지수로 당선인을 예측하는 게 아니라 전문가의 판단 모델인 셈이다.



    선거 조사의 엔터테인먼트 기능

    여론조사가 아닌 객관적 정치·경제·사회적 변수를 이용한 대표적 모델 가운데 하나는 버지니아대 ‘변화의 시간(Time for Change)’ 모델이다. 이 모델은 현직 대통령에 대한 국정평가 여론조사, 선거가 있는 해의 2분기 경제성장률, 그리고 현직 대통령의 재선 선거인지 여부 등 3가지 변수로 결과를 예측한다. 1948년 이후 17번의 대선에서 이 모델의 설명력(R-squared)은 90%였다. 이 모델에 따르면 이번 대선에서 클린턴은 47%를 득표해 트럼프에게 패할 것으로 전망된다. 하지만 이 모델을 개발한 앨런 아브라모위츠 에머리대 정치학과 교수는 이번 선거에서 이 모델이 틀릴 수 있다고 예측했다. 이 모델은 양당이 전형적인 후보를 내고 효율적으로 선거운동을 펼칠 것이라고 가정하는데, 트럼프는 그 가정에 들어맞지 않는다는 것이다.

    정치·경제·사회적 변수 모델 가운데 가장 간단한 것은 현직 대통령의 재직 기간 실질소득성장률과 군비 지출 두 개 변수만으로 당선인을 추정하는 모델이다. ‘빵과 평화’라고 명명된 이 방법론의 정확도는 86%였다. 이 모델에 따르면 클린턴이 이번 선거에서 이길 것으로 예측된다. 하지만 2012년 대선에서 이 모델은 버락 오바마 후보의 패배를 전망해 예측이 빗나간 바 있다.

    선거 예측은 과학적 여론조사와 유권자 행태에 대한 사회과학적 가정의 종합이다. 후자 없이 전자만으로 이뤄지는 것이 아니다. 여론조사의 기능은 정확한 정보 전달과 더불어 누가 더 정확히 결과를 예측할 수 있는지 사회과학적 가정의 타당성을 검증해보는 게임이다. 정보 엔터테인먼트라 할 만하다. 그런데 한국에서는 이러한 선거 가중치 개발이 불법이다. 조사 결과에 인구 가중치가 아닌 다른 가중치를 적용하면 중앙선거관리위원회에서 벌금을 부과한다. 정보 혼란을 초래하고, 조작의 여지가 있다는 게 그 이유다. 불확실성을 받아들이지 못하는 비과학적 태도가 선거 여론조사의 엔터테인먼트 기능을 빼앗고 있다. 좀 즐기자. 




    댓글 0
    닫기