빅데이터 시대 세계는 데이터로 넘쳐나고 있다. 이제 빅데이터는 거의 모든 산업과 경영의 기능을 변화시키고 있으며, 이런 변화에 적응하지 못하면 살아남을 수 없다. 그래서 기업과 공공기관을 비롯한 사회의 거의 모든 영역에서 빅데이터가 주목받고 있다.
하지만 빅데이터를 말할 때 ‘로또’는 언뜻 상관관계가 떠오르지 않는다. 그런데 전혀 관련 없어 보이는 로또 분야에서 빅데이터는 도리어 선전 도구로 오용되고 있다. 많은 사람이 여전히 말도 안 되는 논리에 현혹되고 있다. 로또 당첨번호 예측에서 벌어지는 빅데이터 오용 현상에 대해 알아보자.
인터넷 포털사이트에서 ‘로또’와 ‘빅데이터’를 검색하면 예상 당첨번호를 제공하는 수십 개의 사이트가 검색된다. 이 사이트들의 홍보 문구를 몇 개만 열거하면 다음과 같다.
‘로또 당첨번호, 통계를 이용한 빅데이터 패턴 분석 자료 제공’
‘수십억 대박신화로 가는 지름길, 로또 1등 당첨을 아직도 운에 맡기고 있습니까?’
‘빅데이터 분석 기반의 로또 분석 및 예측 시스템’
각 사이트는 빅데이터를 이용한 과학적 패턴 분석과 당첨번호의 통계적 예측이라는 말로 사람들을 유혹한다. 물론 이들 사이트에 가입해 1등 예상번호를 제공받으려면 최소 월 1만~2만 원의 회비를 내야 한다. 사이트들의 이런 선전 내용은 어느 정도까지 믿을 수 있을까. 그 답은 간단하다. 한마디로 말해 전혀 터무니없는 주장이고 과대광고다. 이 사이트들의 주장은 확률의 대표적 오판 가운데 하나로, ‘도박사의 오류’라고 부른다. 이들은 아예 이 잘못된 판단을 사업으로 활용하고 있고 많은 사람이 이에 현혹돼 돈과 시간을 낭비하고 있다.
터무니없는 과대광고
확률의 기본에 어긋나는 이런 판단을 도박사의 오류라고 이름 붙인 것은 도박사들이 흔히 범하는 잘못이기 때문이다. 룰렛(roulette)이라는 카지노 게임을 예로 들어보자. 룰렛은 0에서 36까지 숫자가 적힌 원판을 돌리면서 그 위에 구슬을 떨어뜨린 뒤 구슬이 어떤 숫자에서 멈추는지를 맞추는 게임이다. 만약 6번 내내 홀수만 나왔다면 도박사는 대부분 다음에는 틀림없이 짝수가 나올 것이라 생각하고 짝수에 상당한 돈을 건다.
이처럼 앞서 홀수가 여러 번 나왔을 때 다음번에 짝수가 나올 확률이 2분의 1보다 높으리라고 생각하는 것이 바로 도박사의 오류다. 하지만 도박사들의 기대와는 관계없이 어떤 경우에도 다음에 홀수가 나올 확률은 2분의 1이다. 룰렛의 구슬은 앞에서 어떤 숫자가 나왔는지를 전혀 기억하지 못하는데 도박사들은 구슬이 자신들처럼 그 숫자들을 기억하리라고 기대하는 잘못을 저지르는 것이다.
개인 수준에서 도박사의 오류는 흔히 일어난다. 얼마 전 TV에서 부산 딸부잣집의 부부와 딸 7명이 출연한 프로그램을 본 적이 있다. 그런데 프로그램 중간에 사회자가 “어쩌다 딸만 일곱을 낳게 됐습니까”라고 묻자 어머니가 이렇게 대답했다.
“딸 셋을 낳으니까 이웃집 사람들이 ‘딸 셋을 잇달아 낳으면 다음 아이는 틀림없이 아들’이라고 하기에 낳았더니 또 딸이데요. 그런데 딸 여섯을 낳으니까 다음엔 정말로 틀림없이 아들이라고 하기에 또 낳았더니 딸이었어요.”
이 대답에 방청객들은 큰 웃음을 터뜨렸다. 어느 경우에나 아들을 낳을 확률은 2분의 1이다. 새로 태어날 아기는 그전에 딸만 줄줄이 태어났다는 것을 알지 못한다. 따라서 잇달아 딸 다섯을 낳았더라도 다음에 다시 아들을 낳을 확률은 여전히 2분의 1이다. 그러나 딸 다섯을 잇달아 낳은 것을 아는 이웃집 사람들은 다음에 아들을 낳을 확률이 2분의 1보다 훨씬 높아진다고 생각한다.
도박사의 오류는 심지어 국가 수준에서 일어나기도 한다. 제1차 세계대전 중에 실제로 있었던 일이다. 전쟁터에서 병사들은 새로 만들어진 포탄구덩이, 즉 방금 포탄이 떨어졌던 장소에 몸을 숨기라고 교육받았다. 아마도 같은 날 같은 장소에 두 번씩이나 포탄이 떨어질 가능성이 거의 없다고 생각해 이렇게 교육했을 터였다. 하지만 이마저도 도박사의 오류다. 동전을 던져 앞면이 나왔다는 사실이 다시 동전을 던졌을 때 앞면이 나올 확률을 낮게 하지는 않는다. 마찬가지로 어느 지점에 포탄이 떨어졌다는 사실이 다시 그 지점에 포탄이 떨어질 확률을 낮추지는 않는다.
‘도박사의 오류’와 대수의 법칙
그렇다면 사람들은 왜 이렇게 잘못된 판단을 하는 걸까. 먼저 특정 확률이 대표적으로 나타나기를 희망하는 기대 때문이다. 아들을 낳을 확률이 2분의 1이므로 자식을 6명 낳는다고 하면 아들이 셋, 딸이 셋이 되기를 기대한다. 마찬가지로 동전을 던진다면 앞면과 뒷면이 나오는 횟수가 비슷하게 균형을 이루기를 기대하는 것이다. 그러나 동전을 1000번 던지면 앞면이 나올 확률이 2분의 1에 수렴하겠지만 10번을 던지는 경우에는 반드시 앞면 5번, 뒷면 5번이 나오는 것은 아니다. 앞면만 10번이 나올 수도 있다.
룰렛에서도 홀수가 나올 확률은 수많은 시도를 했을 때 그 확률이 2분의 1이 되는 것이다. 이를 대수(大數)의 법칙(law of large numbers)이라고 한다. 그러나 여기에서 말하는 ‘수많은 시도’는 사람들이 흔히 생각하는 것보다 훨씬 많은 시도를 의미한다. 그 많은 시도 속에서 부분적으로 홀수만 연속해 나온다 해도 결코 이상한 일은 아니다.
또한 사람들은 독립적 사건을 종속적인 것으로 혼동한다. 내가 오늘 아침 빨간색 넥타이를 매고 나올 확률과 당신이 아침식탁에서 굴비를 먹을 확률과는 아무런 관계가 없는 독립적인 사건이다. 반대로 사건 A가 사건 B에 영향을 미칠 때는 사건 B는 사건 A에 종속적이라고 한다. 예를 들어 내일 우산을 들고 나갈 확률은 내일 비가 올 확률에 종속적이다. 비 올 확률의 크기에 따라 우산을 들고 나갈 확률이 영향을 받는다. 아들을 낳을 확률은 그전에 딸을 낳았다는 사실과는 전혀 관계없이 독립적이다. 앞에서 홀수가 연달아 나왔다는 사실은 다음에 홀수가 나올 확률과 아무런 관계가 없다. 이런 독립적 사건을 어떤 관계가 있는 종속적 사건으로 볼 때 도박사의 오류 같은 잘못된 판단을 하게 된다.
로또 예상 당첨번호를 제공하는 사이트들은 빅데이터를 통해 누적통계와 숫자 조합 패턴을 분석한다고 주장한다. 지금까지 로또는 655회 진행됐다. 누적된 데이터래야 45개 번호 가운데 6개가 당첨됐던 데이터 655회가 축적된 정도다. 빅데이터는 고사하고 아주 작은 데이터에 지나지 않는다. 그리고 이 작은 데이터에서 1등번호에 어떤 숫자들이 적게 포함되었는지를 파악해 그 숫자를 예상 당첨번호라고 (돈을 받고) 추천하는 것은 명백한 과대광고다. 이 글을 읽은 독자만이라도 앞으로는 이런 광고에 속지 않기를 바란다.
하지만 빅데이터를 말할 때 ‘로또’는 언뜻 상관관계가 떠오르지 않는다. 그런데 전혀 관련 없어 보이는 로또 분야에서 빅데이터는 도리어 선전 도구로 오용되고 있다. 많은 사람이 여전히 말도 안 되는 논리에 현혹되고 있다. 로또 당첨번호 예측에서 벌어지는 빅데이터 오용 현상에 대해 알아보자.
인터넷 포털사이트에서 ‘로또’와 ‘빅데이터’를 검색하면 예상 당첨번호를 제공하는 수십 개의 사이트가 검색된다. 이 사이트들의 홍보 문구를 몇 개만 열거하면 다음과 같다.
‘로또 당첨번호, 통계를 이용한 빅데이터 패턴 분석 자료 제공’
‘수십억 대박신화로 가는 지름길, 로또 1등 당첨을 아직도 운에 맡기고 있습니까?’
‘빅데이터 분석 기반의 로또 분석 및 예측 시스템’
각 사이트는 빅데이터를 이용한 과학적 패턴 분석과 당첨번호의 통계적 예측이라는 말로 사람들을 유혹한다. 물론 이들 사이트에 가입해 1등 예상번호를 제공받으려면 최소 월 1만~2만 원의 회비를 내야 한다. 사이트들의 이런 선전 내용은 어느 정도까지 믿을 수 있을까. 그 답은 간단하다. 한마디로 말해 전혀 터무니없는 주장이고 과대광고다. 이 사이트들의 주장은 확률의 대표적 오판 가운데 하나로, ‘도박사의 오류’라고 부른다. 이들은 아예 이 잘못된 판단을 사업으로 활용하고 있고 많은 사람이 이에 현혹돼 돈과 시간을 낭비하고 있다.
터무니없는 과대광고
확률의 기본에 어긋나는 이런 판단을 도박사의 오류라고 이름 붙인 것은 도박사들이 흔히 범하는 잘못이기 때문이다. 룰렛(roulette)이라는 카지노 게임을 예로 들어보자. 룰렛은 0에서 36까지 숫자가 적힌 원판을 돌리면서 그 위에 구슬을 떨어뜨린 뒤 구슬이 어떤 숫자에서 멈추는지를 맞추는 게임이다. 만약 6번 내내 홀수만 나왔다면 도박사는 대부분 다음에는 틀림없이 짝수가 나올 것이라 생각하고 짝수에 상당한 돈을 건다.
이처럼 앞서 홀수가 여러 번 나왔을 때 다음번에 짝수가 나올 확률이 2분의 1보다 높으리라고 생각하는 것이 바로 도박사의 오류다. 하지만 도박사들의 기대와는 관계없이 어떤 경우에도 다음에 홀수가 나올 확률은 2분의 1이다. 룰렛의 구슬은 앞에서 어떤 숫자가 나왔는지를 전혀 기억하지 못하는데 도박사들은 구슬이 자신들처럼 그 숫자들을 기억하리라고 기대하는 잘못을 저지르는 것이다.
개인 수준에서 도박사의 오류는 흔히 일어난다. 얼마 전 TV에서 부산 딸부잣집의 부부와 딸 7명이 출연한 프로그램을 본 적이 있다. 그런데 프로그램 중간에 사회자가 “어쩌다 딸만 일곱을 낳게 됐습니까”라고 묻자 어머니가 이렇게 대답했다.
“딸 셋을 낳으니까 이웃집 사람들이 ‘딸 셋을 잇달아 낳으면 다음 아이는 틀림없이 아들’이라고 하기에 낳았더니 또 딸이데요. 그런데 딸 여섯을 낳으니까 다음엔 정말로 틀림없이 아들이라고 하기에 또 낳았더니 딸이었어요.”
이 대답에 방청객들은 큰 웃음을 터뜨렸다. 어느 경우에나 아들을 낳을 확률은 2분의 1이다. 새로 태어날 아기는 그전에 딸만 줄줄이 태어났다는 것을 알지 못한다. 따라서 잇달아 딸 다섯을 낳았더라도 다음에 다시 아들을 낳을 확률은 여전히 2분의 1이다. 그러나 딸 다섯을 잇달아 낳은 것을 아는 이웃집 사람들은 다음에 아들을 낳을 확률이 2분의 1보다 훨씬 높아진다고 생각한다.
도박사의 오류는 심지어 국가 수준에서 일어나기도 한다. 제1차 세계대전 중에 실제로 있었던 일이다. 전쟁터에서 병사들은 새로 만들어진 포탄구덩이, 즉 방금 포탄이 떨어졌던 장소에 몸을 숨기라고 교육받았다. 아마도 같은 날 같은 장소에 두 번씩이나 포탄이 떨어질 가능성이 거의 없다고 생각해 이렇게 교육했을 터였다. 하지만 이마저도 도박사의 오류다. 동전을 던져 앞면이 나왔다는 사실이 다시 동전을 던졌을 때 앞면이 나올 확률을 낮게 하지는 않는다. 마찬가지로 어느 지점에 포탄이 떨어졌다는 사실이 다시 그 지점에 포탄이 떨어질 확률을 낮추지는 않는다.
‘도박사의 오류’와 대수의 법칙
그렇다면 사람들은 왜 이렇게 잘못된 판단을 하는 걸까. 먼저 특정 확률이 대표적으로 나타나기를 희망하는 기대 때문이다. 아들을 낳을 확률이 2분의 1이므로 자식을 6명 낳는다고 하면 아들이 셋, 딸이 셋이 되기를 기대한다. 마찬가지로 동전을 던진다면 앞면과 뒷면이 나오는 횟수가 비슷하게 균형을 이루기를 기대하는 것이다. 그러나 동전을 1000번 던지면 앞면이 나올 확률이 2분의 1에 수렴하겠지만 10번을 던지는 경우에는 반드시 앞면 5번, 뒷면 5번이 나오는 것은 아니다. 앞면만 10번이 나올 수도 있다.
룰렛에서도 홀수가 나올 확률은 수많은 시도를 했을 때 그 확률이 2분의 1이 되는 것이다. 이를 대수(大數)의 법칙(law of large numbers)이라고 한다. 그러나 여기에서 말하는 ‘수많은 시도’는 사람들이 흔히 생각하는 것보다 훨씬 많은 시도를 의미한다. 그 많은 시도 속에서 부분적으로 홀수만 연속해 나온다 해도 결코 이상한 일은 아니다.
또한 사람들은 독립적 사건을 종속적인 것으로 혼동한다. 내가 오늘 아침 빨간색 넥타이를 매고 나올 확률과 당신이 아침식탁에서 굴비를 먹을 확률과는 아무런 관계가 없는 독립적인 사건이다. 반대로 사건 A가 사건 B에 영향을 미칠 때는 사건 B는 사건 A에 종속적이라고 한다. 예를 들어 내일 우산을 들고 나갈 확률은 내일 비가 올 확률에 종속적이다. 비 올 확률의 크기에 따라 우산을 들고 나갈 확률이 영향을 받는다. 아들을 낳을 확률은 그전에 딸을 낳았다는 사실과는 전혀 관계없이 독립적이다. 앞에서 홀수가 연달아 나왔다는 사실은 다음에 홀수가 나올 확률과 아무런 관계가 없다. 이런 독립적 사건을 어떤 관계가 있는 종속적 사건으로 볼 때 도박사의 오류 같은 잘못된 판단을 하게 된다.
로또 예상 당첨번호를 제공하는 사이트들은 빅데이터를 통해 누적통계와 숫자 조합 패턴을 분석한다고 주장한다. 지금까지 로또는 655회 진행됐다. 누적된 데이터래야 45개 번호 가운데 6개가 당첨됐던 데이터 655회가 축적된 정도다. 빅데이터는 고사하고 아주 작은 데이터에 지나지 않는다. 그리고 이 작은 데이터에서 1등번호에 어떤 숫자들이 적게 포함되었는지를 파악해 그 숫자를 예상 당첨번호라고 (돈을 받고) 추천하는 것은 명백한 과대광고다. 이 글을 읽은 독자만이라도 앞으로는 이런 광고에 속지 않기를 바란다.